Ce que révèlent les données de la géolocalisation de Google

Si vous êtes un utilisateur de Google Maps vous pouvez activer votre "historique de localisation" sur cette page. Google vous propose d'accéder aux données de localisation ainsi collectées (mais aussi à celles de nombreux autres services de Google) sur cette autre page.

J'ai récupéré mon historique de localisation et ai passé quelques heures à l'explorer (pour les nouveaux lecteurs, je l'avais déjà fait en 2010, mais de façon moins approfondie), voici ce que j'ai appris.

Les données sont dans un ficher "json" dont la taille dépend du nombre de localisations présentes dans votre historique. Le mien est composé de plus de 200 000 positions collectées entre fin 2009 et fin 2013... Mais la première surprise est que le nombre de point de mesure quotidien a très brutalement augmenté en 2013, comme le montre ce graphique du nombre de points relevés par jour :
Mesur de localisation Google par jour
Le nombre de points mesurés par jour augmente en 2013.
Je pense que cette augmentation correspond à une évolution du service, liée à la mise à disposition par Android d'informations plus complètes comme mentionné ici et à l'utilisation plus systématique des API de localisation par diverses apps. Si vous avez des idées sur la question, n'hésitez pas à me les indiquer en commentaires ou sur twitter.

Chaque position est décrite comme suit :

{"timestampMs" : "1389387648744",
   "latitudeE7" : 488109845,
   "longitudeE7" : 21917024,
   "accuracy" : 20,
   "activitys" : [ {"timestampMs" : "1389387648390",
                         "activities" : [ { "type" : "still", "confidence" : 85}, 
                                             { "type" : "inVehicle", "confidence" : 7}, 
                                             { "type" : "unknown", "confidence" : 7 } ]
                      } ]
  }

timestampMs est un indicateur de date et d'heure, on trouve, ensuite, la position : latitude et longitude, la précision (en mètre ?), et une suite d'indications concernant l'activité et en particulier la mobilité probable du porteur du téléphone. Les attributs proposés étant : still, inVehicle, onFoot, onBicycle et tilting. Voici la répartition des modes (en ne retenant que le plus probable pour chaque mesure) qui indique que les modes  inVehicle ou onBicycle sont très rarement les plus probables :
Répartition des modes dans Google Location History
Je me suis, ensuite, intéressé à la répartition horaire pour les différents jours de la semaine :
Historique de localisation Google par jour de la semaine
Historique de localisation Google par jour de la semaine
Ces graphiques semblent révèler un rythme hebdomadaire, avec des différences notables d'un jour à l'autre et qui mériterait d'être approfondi....

Enfin, je me suis intéressé à la répartition "spatio-temporelle" des relevés et ai essayé de retrouver des déplacements réguliers. Après quelques tâtonnements, voici un exemple où les localisations du Week End et celles de la semaine sont colorisées de façon différentes.
Google Location History sur une carte
Répartition spatio-temporelle colorée de positions relevées le WE et en semaine.
J'ai réalisé ces analyses relativement rapidement en utilisant le langage R et en m'inspirant d'un article d'Oscar Branson sur le même sujet. 

Les données semblent très riches et même si, comme souvent, leur interprétation nécessite beaucoup de prudence, il y a probablement de nombreux enseignements qui peuvent en être extraits. Si cela vous inspire d'autres axes d'analyse (ou d'autres sources)  n'hésitez pas à me laisser un message ci-dessous.

4 commentaires:

Stephane SCHULTZ a dit…

Salut Yan,
est-ce que l'augmentation des "traces" depuis 2013 n'a pas qques choses à voir avec une géolocalisation automatique par défaut (via des "refresh") comme pour Foursquare http://digiday.com/platforms/foursquare-longer-needs-check-ins-track-store-visits/ ?

Noémie Lehuby a dit…

Cela me rappelle, dans une moindre mesure, ce TED talk.

mc a dit…

"Voici la répartition des modes (en ne retenant que le plus probable pour chaque mesure) qui indique que les modes inVehicle ou onBicycle sont très rarement les plus probables"
La répartition /des enregistrements/ selon les modes je suppose mais est ce que la fréquence d'enregistrement est constante ? j'aurais tendance a croire au vu des répartitions par jour que lorsque tu es en mouvement, la fréquence augmente (cf. le pic du matin en semaine).

Yann a dit…

Bonjour à tous, désolé pour les réponses un peu tardives.

Stéphane : oui absolument je pense qu'il y a un relevé par minute environ quelque soit l'activité du mobile...

Noémie : effectivement, video passionnante, qui confirme qu'il faut pouvoir accéder à nos traces lorsqu'elles existent.

mc : il me semble que la fréquence était variable et dépendait de mon activité sur le téléphone (par exemple des demandes de localisation sur des apps, sur google maps, etc...) mais il me semble que depuis 2013 c'est simplement une remontée par minute quelque soit l'activité...