Les données de Google décrivent la mobilité des métropoles mondiales

Un article récent sur le site de Google Research présente de façon abordable des travaux d'interprétation des traces collectées par Google sur les téléphones mobiles de ses utilisateurs. Ces travaux portent à la fois sur l'interprétation des traces dans le cadre d'une comparaison de la structure de grandes métropoles, mais aussi sur les méthodes permettant de traiter ces données sans compromettre leur confidentialité.

La structure des grandes métropoles fait l'objet d'un article plus détaillé. Google y introduit un indicateur de "hiérarchie de flux" Φ. Φ est proche de 1 pour des villes maillées avec un centre principal dont les flux de mobilité sont relativement homogènes. Φ diminue pour des villes polycentriques pour lesquels des pics de mobilités diffus existent aux emplacements des différents "centres".  L'apport essentiel de Google est surtout de pouvoir calculer cet indicateur pour de très nombreuses métropoles mondiales, quelles qu'en soient la taille ou les spécificités. Le diagramme ci-dessous représente l'indice de hiérarchie de flux pour les 174 villes les plus peuplées du monde.

Cet indicateur est ensuite comparé avec des indicateurs classiquement utilisés pour mesurer l'attractivité d'une métropole : parts modales des déplacements, émissions de CO, de NOx, de particules, la fréquence des AVC dans la population, etc... Il en ressort une corrélation entre l'indicateur de hiérarchie des flux et l'attractivité de la métropole : plus la hiérarchie de flux est élevée, plus les autres indicateurs sont "bien orientés".

L'article conclue en évoquant les travaux permettant de préserver la confidentialité des données personnelles tout en permettant leur utilisation statistique. L'idée générale est d'agréger des données à grande échelle en permettant à une partie de la population de biaiser ses réponses. Il devient alors difficile de garantir la véracité d'une réponse individuelle, mais toujours possible statistiquement de corriger le "biais" des données agrégées. 

Débat réglementaire sur les "Engins de Déplacement Partagés" en Californie

A Paris comme en Californie les débats sont vifs et il semble difficile d'aboutir à un consensus sur la réglementation des trottinettes en libre service dans un contexte où :
  • Certains souhaitent encourager les mobilités électriques, partagées, relativement peu consommatrices d'espace public et peu productrices de CO2.
  • D'autres sont plutôt sensibles aux dangers de cette nouvelle catégorie de mobiles quand elle circule sur la route et pis encore sur les trottoirs et à la gène suscitée par l'encombrement des trottoirs dans certaines zones denses...
En France en attendant l'adoption de la loi LOM, Paris a adopté le principe d'une taxation du nombre de trottinettes (nous en avions parlé ici) et le sujet nourrit les escarmouches entre Mme Hildalgo et M. Castaner.

Un détour par la Californie apporte un éclairage sur les termes du débat sur la réglementation des "shared mobility objects" (c'est à dire des trottinettes et autres VLS soit, en bon français, des "EDP" : Engins de Déplacements Partagés ...) aux USA.
Le Département des Transport  de Los Angeles (LA DOT) a développé un outil visant à faciliter les échanges de données entre la ville et les opérateurs de mobilité partagée :  "Mobility Data Stpecification". Ce "standard" fait l'objet d'un article récent de Gabriel Plassat sur la Fabrique des Mobilités. L'objectif annoncé est d'observer les déplacements pour mesurer les conséquences du déploiement et, le cas échéant, de réguler, voir de taxer les usages. Cette spécification a rapidement intéressé d'autres villes et irrité les sociétés de micro-mobilités qui pour la plupart sont peu favorables à la régulation du secteur au niveau local.

L'état de Californie, probablement à la demande des opérateurs, s'est intéressé au sujet et travaille sur une proposition loi qui s'imposerait aux villes.Elle visait initialement à interdire aux villes d’exiger d'accéder aux données des opérateurs de micro-mobilité. Ce texte (Assembly Bill AB 1119) a été débattu et pour le moment aucun accord n'a été obtenu. Logiquement les villes se battent pour affaiblir le texte. Néanmoins, le débat, les évolutions du texte et le jeu des acteurs sont intéressants y compris dans un contexte français et parisien. Les débats ont porté sur 3 points : l'accès aux données, le champs des obligations pouvant être imposées aux opérateurs au niveau local et les redevances.

Sur les données :

L'EFF (Electronic Frontier Foundation),  qui défend la vie privée, la liberté d'expression et l'innovation, a pris position pour interdire l'accès aux données par les services des villes. Les arguments de l'EFF sont détaillés dans cet article : Los Angeles Department of Tansportations ride tracking pilot is out control. En substance, les données de géolocalisation détaillées sont des données personnelles sensibles qui doivent rester confidentielles et sous la stricte responsabilité de l'entreprise qui les collecte. Elles ne doivent pas circuler entre les organisations.

Du coup le texte actuel introduit les notions de données anonymisées et agrégées. Il autorise les villes à exiger l'accès aux données opérationnelles anonymisées et agrégées pour tous les voyages réalisés au moins en partie sur leur territoire.En principe c'est clair, en pratique ce n'est pas si simple à mettre en oeuvre...

Sur la possibilité d'imposer une licence locale :

A ce stade, le texte reconnait cette possibilité mais cadre les exigences pouvant figurer dans l'accord de licence? Outre les dispositions relatives à la sécurité et à la santé publique, des clauses visant à obliger les opérateurs à servir certaines zones ou certaines personnes (ensure equitable access to historically disadvantaged communities or individuals) peuvent accompagner la licence.

Enfin sur les redevances :

Le texte, dans son état actuel, autorise la perception de redevances à condition que leur montant soit proportionné aux coûts induits pour la collectivité pour l'administration du service.

Au final rien de tout cela n'est définitif et on devrait entendre parler à nouveau de ces trottinettes dans les semaines et les mois qui viennent !

Transit Data à Paris : 6 tendances pour les données et le mass transit


Du 8 au 10 juillet 2019, quatre-vingt des meilleurs "data-scientists" du domaine du "mass transit" se sont réunis à Paris pour la cinquième édition de Transit Data.
J'ai pu assister à une partie de l'événement, que vous pouvez revivre en remontant le fil twitter  et ai été impressionné par la qualité des participants et  des présentations. Elles sont, cerise sur le gâteau, pour la plupart accessibles en ligne.
Après avoir relu ces présentations, je partage avec vous 6 tendances générales qui me semblent représentatives de l'ensemble, illustrées par quelques présentations :
  1. Une meilleure compréhension des comportements des voyageurs en particulier des critères de choix d’itinéraire en milieu urbain dense. Des comportements spécifiques comme le déni d’embarquement (boarding denial), les itinéraires "à rebours" (back riding ou reverse routing) ou les réactions en cas d’incident (fermeture de gares) font l'objet d'analyse quantitatives inédites et intéressantes. Voir par exemple :  Understanding passenger path choice in congested metro  networks: The  case of reverse routing.
  2. Des analyses sur les couplages voyageurs/exploitation notamment autour des temps d’embarquement, ou des choix d’itinéraires en bus en fonction de l’information disponible ou d’incidents… Voir l’étude japonaise sur les liens entre perturbations  des trains et affluences des voyageurs :  Empirical Investigation of Fundamental Diagram for Urban Rail Transit by Using Commuter Rail Data in Tokyo … 
  3. Un recours fréquents aux méthodes issues du « machine learning » au domaine de la mobilité. Il y a plusieurs exemples d'applications d'algorithmes de clustering dont une sur la vulnérabilité des gares aux perturbations et une sur la segmentation des voyageurs sur la base de leurs données de mobilité. J'ai apprécié la présentation de VEDECOM : Prediction of bus passenger flow using Machine Learning.
  4. Plusieurs études sur la multi-modalité autour des stations de transit ou en substitution du transit associant de nombreuses données dont des données météo ou événementielles…  Voir notamment :  Longitudinal modeling of the daily subway ridership in Montreal: What is the influence of alternative modes of transport ? (non disponible pour le moment).
  5. Moins de présentation sur les questions de tarification. Voir tout de même :  Evaluating the impact of fare capping and guaranteed best fare policies with smart card data and Machine learning.
  6. Un intérêt pour les données ouvertes : GTFS, OSM… qui permettent de construire des benchmarks mondiaux Voir par exemple :Enhanced complex network representation of public transport for accessibility assessment based on General Transit Feed Specification data .
Je serai, bien sûr, heureux d'avoir vos commentaires sur la pertinence de ces tendances et de cette petite sélection... Et surtout, je remercie et félicite les auteurs des présentations, les membres du steering committee, les organisateurs et tout particulièrement Maguelonne Chandesris.