Le WiFi de TfL : protection de la vie privée, transparence & open data dans les transports publics

Transport for London a été un des leaders en matière d'Open Data et propose aujourd'hui un important catalogue d'API et de données ouvertes.

La valorisation de la donnée en interne n'est pa négligée comme en témoigne cette présentation qui date de 2015. Son auteur, Lauren Sager Weinstein, était à l'époque en charge de l'analyse à TfL. Elle est, depuis début 2017, Chief Data Officer de TfL.


Big data 21 April 2015 from Lauren Sager Weinstein

En 2017,TfL a réalisé un "pilote" pour mesurer l'intérêt d'exploiter les données collectées via l'offre de WiFi gratuit.(lancée en 2012). En août 2018, TfL a publié le rapport d'évaluation du pilote.
Le rapport conclut que les données collectées sont effectivement utiles en particulier pour :

  • comprendre les itinéraires de bout en bout choisis par les voyageurs,
  • comprendre les cheminements à l'intérieur des stations et identifier les temps de transferts,
  • comprendre l'impact des perturbations et les zones saturées,
  • améliorer l'exploitation et l'information voyageurs par des analyses fines des données.

Les informations sur les cheminements détaillés à l'intérieur des stations permettent d'augmenter les revenues issus des affichages publicitaires. Il ne s'agit pas pour TfL de vendre les données collectées à des annonceurs, mais de fixer les prix de vente des espaces publicitaires de façon optimale. Un article de Sky news cite le chiffre de £322 millions de revenues supplémentaires sur 8 ans.
Cet article tente de susciter la controverse sur le fait que TfL n'exclurait pas de "vendre ces données agrégées". J'essayerai, ci dessous, de montrer en quoi la "vente des données agrégées" n'est effectivement pas le risque principal.

Ce test conduit aujourd'hui TfL à pérenniser l'analyse des données WiFi.

Au delà des résultats d'analyses, le rapport est intéressant car il développe les dispositions mises en oeuvre pour protéger la vie privée des voyageurs et leur expliquer les bénéfices attendus en termes économiques et en matière de services.

Les données collectées sont relativement simples :

  1. les identifiants uniques des terminaux utilisés par les voyageurs (adresse MAC immédiatement "hashées" et qui ne sont donc pas stockées en clair),   
  2. la date et l'heure de lecture, 
  3. l'identifiant de la borne WiFi.
A elles seules, ces données ne permettent pas de remonter à l'identité de tel ou tel voyageur. En revanche, croiser ces données avec d'autres données permet en théorie de retrouver l'identité de certains utilisateurs.

Ce peut être le cas avec des données à disposition de TfL. Les traces des cartes Oyster permettent par corrélation spatiale et temporelle d'isoler une carte et un numéro MAC hashé ayant des parcours similaires et simultanés. Le compte Oyster, lié à la carte, permet, probablement, de retrouver l'identité du voyageur.

Des tiers qui accèderaient aux traces WiFi détaillées pourraient aussi,en les croisant avec d'autres informations, remonter vers des données personnelles. Cela avait été brillamment illustré en 2014 par le croisement des données de taxi de NYC avec des photos de stars en train de prendre des taxis...

Le blog Techcrunch se fait l'écho d'une demande d'accès aux données du pilote formulée à TfL par un tiers dans le cadre des règles d'open data. TfL justifie son refus par le risque de croisement avec d'autres données. Yves-Alexandre de Montjoye confirme l'analyse de TfL et amène le débat sur les mesures prises par TfL pour protéger ce jeu de données de toute compromission. Outre une sécurité informatique adéquate, il évoque la possibilité de changer les clés de hashage des adresses MAC tous les jours.

La vente (voire la publication en open data) de données reste possible sans risque pour la vie privée si elles sont suffisamment agrégées. C'est par exemple l'option qui a été choisie par le STIF pour publier des données de validation en Ile de France. Le STIF publie, d'une part un nombre global de validations par jour, par titre et par gare et d'autre part des profils horaires par gares et par jour type. Cela permet toutes sortes de traitement statistiques, mais il parait impossible de remonter à des comportements individuels concernant un individu, à une heure donnée dans une gare donnée.

Plus généralement les techniques de "differential privacy" (confidentialité différentielle en français), tentent de construire à partir de données personnelles des fichiers de données qui conservent certaines valeurs statistiques tout en préservant la vie privée des contributeurs. Un exemple classique et amusant de confidentialité différentielle est donné ici.
Apple a, récemment, annoncé l'utilisation de ces techniques pour traiter les données de navigation de ses clients, ce qui semble, aussi, provoquer controverse.

Au final, la compréhension des risques et des bénéfices de la collecte de données, les précautions pour les stocker et les exploiter, enfin la possibilité de les publier ou de les vendre vont rester un sujet complexe et intéressant, en particulier dans le domaine du transport public. 

Les nouvelles dispositions du RGPD (GPDR en anglais) qui augmente sensiblement les amendes encourues par les entreprises pour une mauvaise utilisation de données personnelles devraient encore accentuer le mouvement !