Benchmark des comptes Twitter du Mass Transit

En 2012, puis en 2013, je m'étais intéressé aux comptes twitter des grands réseaux mondiaux de "mass transit"...
J'avais notamment créé une liste des compte sur twitter et une petite application qui depuis s'est arrêtée faute de maintenance ! 

Récemment une amie m'a passé quelques éléments de mises à jour qui indiquent l'explosion du nombre d'abonnés et qui confirment la prédominance des réseaux sud américain.

@metrosp_oficial : 1,6M abonnés ! (Metro de Sao Paulo)
@metrodesantiago : 1,57M 
@TransMilenio : 1,52M
@MetroCDMX ‏ : 1,37M
@TfLTrafficNews : 1,17M, mais aussi @TfL à plus de 2M d'abonnés !
@MTA : 1M (New York MTA)
@tocho_koho : 788k (metro.tokyo.jp)
@NYCTSubway : 672M
@BEM_MRT : 658k (MRT Bangkok Metro)
@Transantiago : 358K 
@RER_A ‏: 101k
@mtrupdate : 77,5k (MTR Service update)
@MBTA_CR : 20,4k (MBTA Commuter Rail)

Je vous livre cela brut de fonderie en attendant de retrouver un peu de temps pour refaire une moulinette plus automatique pour suivre l'évolution de ces comptes.

Trump, design de rien et scepticisme de la donnée

Le rapport à la réalité de Trump et son équipe sont à la une de la presse internationale. Peut on s'appuyer sur des faits alternatifs ? Peut on être sérieux et climato-sceptique ? Serions nous entrés dans le post réalisme ? Peut on soutenir qu'il y avait foule à l'investiture en dépit des photos qui "prouvent" le contraire ? 
En ces temps de réalité virtuelle, augmentée, la vidéo ci dessous démontre de façon spectaculaire qu'il faut se préparer à douter de ce que l'on voit.
L'excellent InternetActu a développé cela dans un article sur l'avenir de la désinformation. Comme l'image ne suffit plus, la polémique de l'investiture est rapidement passée des photos aux données urbaines. Les statistiques de fréquentation du métro de Washington ont été invoquées pour comparer l'affluence du jour de l'investiture avec celle de la marche des femmes le lendemain. 
Bien entendu ces données ne sont pas plus fiables que les images... 
C'est précisément l'objet de la  "Data Science" que d'essayer d'établir un lien entre données et réalité, mais l'expérience montre à quel point c'est difficile. Je vous propose trois éclairages récents sur cette question...

Peut on se fier aux données  ? 

Je poursuis, à temps très partiel, l'exploration de mon historique de localisation Google Location History, en travaillant sur un tableau d'environ 700 000 lignes qui sont autant de points de localisation avec diverses informations comme indiqué ci-dessous.
accuracy activitys altitude heading latitudeE7 longitudeE7 timestampMs velocity verticalAccuracy
0 50.0 NaN NaN NaN 488069999 21906899 1483005384399 NaN NaN
1 50.0 [{'activities': [{'type': 'still', 'confidence... NaN NaN 488069999 21906899 1483005317099 NaN NaN
2 50.0 NaN NaN NaN 488069999 21906899 1483005249799 NaN NaN
3 50.0 NaN NaN NaN 488069999 21906899 1483005182899 NaN NaN

Comme on peut le voir, le tableau contient de nombreuses mentions NaN (pour Not a Number) qui indiquent que l'information n'est pas disponible...
Par ailleurs, un examen de la distribution du nombre de localisations mesurées par mois montre que quelques mois enregistrent plus de 40 000 localisations, mais que pour presque trente mois, je ne dispose quasiment d'aucune  localisation.
Toutes les analyses fondées sur ces données ne donneront donc qu'une vision très partielle de mes déplacements réels pendant cette période... Avant de tirer des conclusions de ce qui est mesuré, il faut donc s'attacher à comprendre l'importance de ce qui n'est pas mesuré. 
Un peu comme avec les spectateurs de Trump qui ne sont, peut être, pas sur la photo !

Comment peut on voir ce qui n'a pas été mesuré ? 

Il se trouve que cette question est un classique de l'analyse de données et des visualisations. Pour vous en convaincre, voici une intéressante vidéo d'Andy Kirk intitulée The Design of Nothing : Null, Zero, Blank...
Quand la donnée ne manque pas,elle est toujours inexacte, ce qu'atteste, d'ailleurs, la colonne "accuracy" dans le tableau des localisations. 
Elle est parfois simplement erronée... Ainsi Google m'indique quelques localisation à Mexico, ville où, si ma mémoire est exacte, je n'ai jamais mis les pieds.

Comment être un data sceptique utile ? 

Ce lien difficile à établir entre le réel qui nous échappe et la donnée que nous collectons peut susciter le rejet. Pour rester dans le ton , je cite de nouveau Donald : "I think the computers have complicated lives very greatly. The whole, you know, age of computer has made it where nobody knows exactly what's going on"... Je ne suis pas convaincu de l'utilité de ce scepticisme nihiliste là.
D'autres trouveront, au contraire, plus utile de questionner le lien entre les algorithmes, les données et le réel en exploitant la technologie. Le développement de l'intelligence artificielle permet, par exemple, d'accélérer l'interprétation de masses de données. Un article récent et une petite vidéo illustrent ce que peut être le data scepticisme dans ce contexte...


L'objectif est d'analyser rapidement les critères sur lesquels un algorithme de classification, typiquement un réseau de neurone, propose un résultat. Les exemples les plus visuels portent sur des images, mais l'algorithme Lime peut analyser toutes sortes de classification.
Il permet par exemple d'isoler les parties de l'image sur lesquelles se fondent les décisions de catégoriser l'image comme celle d'un labrador avec une guitare.
On voit que la décision relative au labrador se base bien sur la zone correspondant à la tête du chien., ce qui est rassurant 
En revanche dans l'exemple ci dessous, l'image d'un husky est catégorisée, à tord, comme celle d'un loup. Lime indique que ce choix se fonde sut l'analyse du fond de l'image, ce qui révèle un comportement anormal du classificateur qui devrait fonder sa décision sur l'animal.
 Voila quelques réflexions et exemples qui j'espère vous amuseront et vous permettront d'entretenir le scepticisme constructif et la flamme scientifique face aux faiseurs de "faits alternatifs". 

16 questions sur l'avenir de la mobilité autonome

Je vous résume une vidéo que je conseille à tous ceux que les questions relatives à la mobilité autonome intéressent. Franck Chen du fond d'investissement Andreessen Horowitz partage quelques convictions et 16 questions sur la mobilité autonome. Il démarre par deux convictions :

  • Tout ce qui peut se déplacer finira par devenir autonome : avion, camion, jouet, chariot pour les courses ou les livraisons... En effet, l'autonomie est pratique pour les consommateurs et son prix va baisser...
  • Néanmoins, le marché automobile est si important qu'il structurera le développement de la mobilité autonome.

Puis il pose 16 questions dans les registres technologique, business, et social...



  1. Les 6 étapes de la mobilité autonome (0: l'homme contrôle toutes les fonctions sans assistance, 1 : le conducteur contrôle mais peut être assisté, 2 :le conducteur peut bénéficier d'une automatisation partielle, 3 : l'automatisation est conditionnelle, 4 : l'automatisation est totale et l'action d'un conducteur n'est plus nécessaire mais reste possible, 5 : l'automatisation est totale et permanente) vont elles être se dérouler en parallèle ou en série ? L'auteur remarque que tant qu'il y a un volant et un homme capable de s'en servir, il apparaît un risque nouveau et spécifique lié au passage de la conduite autonome à la conduite humaine.
  2. Les Lidars seront-ils nécessaires aux véhicules autonomes ou peut-on se contenter de caméras stéréoscopiques ? pour le moment les lidars restent beaucoup plus chers que les caméras, mais cela va évoluer et les lidars "mesurent l'environnement" là où les caméras le calculent.
  3. Comment vont se développer les nouvelles cartes optimisées pour les véhicules autonomes ? Au delà des informations cartographiques habituelles, ces cartes comporteront des informations améliorant les performances des algorithmes de pilotage : limitations de vitesse, états des infrastructures, localisations des feux et des panneaux, façon d'aborder certaines zones (travaux...). Ces cartes couvriront elles tous les territoires ?  Là où elles n'existent pas, les capteurs des véhicules suffiront-ils ?
  4. Quelles seront les techniques logicielles qui viendront compléter le fameux "Deep Learning" des véhicules autonomes ? moteur de règles ? réalité virtuelle ?
  5. La réalité virtuelle permettra-t-elle de démultiplier l'apprentissage ? Celui ci est, en effet, basé sur des données réelles mais il peut être testé ou complété en rejouant les données réelles avec des adaptations de type "réalité virtuelle" : de nuit, sous le brouillard, avec des comportements accidentogènes simulés des autres véhicules...
  6. Quel rôle pour les communications V2X ? Les communications entre véhicules, ou entre l'infrastructure et les véhicules pourraient améliorer grandement l'efficacité du pilotage autonome, mais quels seront les standards de ces communications ? est-il réaliste d'attendre leur émergence ? 
  7. A quel horizon pourrons-nous  nous passer de feux rouges ? Cette technologie "rudimentaire" de communication entre infrastructure et conducteur est sous-optimale et inutile pour les véhicules autonomes de niveau 5.
  8. Comment "localiser" les algorithmes de conduite pour les adapter aux usages locaux ? Le code de la route n'est pas le même partout, au delà du code en lui même, les usages peuvent varier en fonction des pays, des régions, des villes...  Pour ma part, je considère, même, que les réglementations locales joueront un rôle déterminant dans l'émergence de ces services (cf : 3 réflexions sur les véhicules autonomes).
  9. Comment va évoluer la chaîne de la valeur entre constructeurs incombant, géants du logiciel et... grands acteurs chinois ? (on reparle en ce moment de LeEco dont j'avais parlé en rentrant de Shanghai). 
  10. Va-t-on continuer à posséder les voiture ? quel rôle pour les opérateurs de services ?
  11. Quel impact sur le marché de l'assurance ? Quel traitement pour les bugs et le piratage des logiciels ?
  12. Quel impact sur la sécurité ? en particulier en phase transitoire est-il possible que le nombre de victimes augmente si on "passe" par les niveau 3 et 4 avant le niveau 5 ?
  13. A quelle date deviendra-t-il illégal pour les hommes de conduire sur "route" ?
  14. Quel sera l'impact sur le temps consacré à la mobilité et sur les habitudes de transport ? L'auteur estime que la mobilité pourrait augmenter significativement. En effet, les passagers déchargés de la conduite, pourraient valoriser le temps passé à bord et être moins sensibles au temps passé dans les transports...
  15. Comment vont évoluer les villes ? Quel impact, par exemple, sur la distribution ?
  16. A quelle date cela va-t-il se mettre en place ? Sur ce point, l'auteur cite les estimations de plusieurs acteurs. Il conclue sur le fait qu'il n'y a pas consensus et que la fourchette est large entre 2020 pour les plus optimistes et les premières réalisations et 2040 pour les plus conservateurs et une diffusion significative des services de niveau 5.