Gares, stations de métro et arrêts de tramways et de bus en Ile de France

Le STIF vient d'ouvrir un portail open data et y a déposé des données "inédites" qui complètent les données précédement ouvertes notamment par la Région, la ville de Paris, la RATP et SNCF Transilien.

On y trouve notamment les données d'offres : arrêts, lignes, horaires, pour l'ensemble des transports publics en Ile de France, bref tout ce qu'il faut pour faire des calculs d'itinéraires ou des analyses de l'offre. 

On y trouve aussi, et c'est inédit, des données sur la fréquentation des différents arrêts (pour les gares et les stations de métro) et des lignes (pour le réseaux de surface, c'est à dire les bus). A ma connaissance, c'est la première fois que de telles données sont ouvertes, Je suis intéressé des "réutilisations" de ces données, si vous avez des idées n'hésitez pas à m'en faire part dans les commentaires de ce post.

Pour ma part, j'ai construit une carte des arrêts, des gares et des stations que je vous présente ci-dessous. Elle est très basique, et n'a vise pas la précision puisque j'ai utilisé les coordonnées géographiques dans un simple repère orthogonal. Son intérêt principal est de réveler les variations de la densité d'arrêt sur le territoire.

Le arrêts de bus sont en bleu, la gares ferroviaires en rouge, les stations de métro en vert et les arrêts de tramway en noir.
Carte des arrêts de bus et de tramway, des gares ferroviaires et des stations de métro en Ile de France.
 En voici une version zoomée :
Zoom sur la carte des arrêts de bus et de tramway, des gares ferroviaires et des stations de métro en Ile de France.
Pour construire cette carte, j'ai utilisé un notebook iPython que j'ai publié sur GitHub.

Google (aussi) vous suggère d'éviter les heures de pointe

Un simple article sur Google+  nous informe d'une nouvelle fonction proposée par la recherche Google lorsqu'on recherche un commerce : la possibilité de visualiser l'affluence du commerce heure par heure et jour par jour, comme indiqué dans l'exemple ci dessous. 

Pour le moment, cela n'a pas l'air de fonctionner sur mon smartphone en France, mais l'article est bien publié par Google et il est un peu tard pour un poisson d'avril.


Techcrunch développe un peu dans cet article et on y apprends que ces données sont basées sur une analyse des traces de l'application Google Maps. Ces traces sont déjà utilisées pour l'information trafic, du trafic routier à l'affluence des lieux de vente, il n'y aurait qu'un pas. Google semble réserver ce service à certains types de commerces pour lesquels l'affluence est  un critère utile pour les clients.

On peut évidemment penser que les gares et les points d'arrêts pourraient bientôt bénéficier du même service et qu'un jour, peut être, Google permettra aux voyageurs d'éviter les pointes...

A propos, si l'affluence dans les gares d'Ile de France vous intéresse, SNCF Transilien vient de publier ces données de comptages par gares, par type de jour (Samedi, Dimanche et jour de semaine) et par tranche horaire les données sont ici et l'article là. 

Comme d'habitude, vos commentaires, sur Google ou sur les données libérées par SNCF Transilien m'intéressent.

Les niveaux à l'intérieur d'un batiment dans OSM avec OpenLevelUp

Je profite du Week End pour passer un coup de chapeau, tarif peut être, mais appuyé à Adrien Pavie qui a mis en ligne OpenLevelUp.

De quoi s'agit il ? 

Il s'agit d'un outil permettant de visualiser certains détails de la cartographie ouverte OpenStreetMap Son objectif est de visualiser facilement intérieur des bâtiments avec, là est le point important, la possibilité de visualiser les niveaux lorsqu'ils sont renseigner dans OSM. C'est quelques choses que j'attendais depuis longtemps....

Exemple  ?

Si vous observer Paris, des bulles colorées vous permettront de repérer les endroits où se trouvent des lieux disposant de "plusieurs niveaux".


Si vous zoomez sur la gare St Lazare, vous allez voir apparaître le bâtiment de la gare et les informations sur les commerces ou les escalators qui s'y trouvent....



Evidemment la gare est, en réalité, constituée de plusieurs niveaux. Celui que vous voyez ci-dessus est le niveau 0... En cliquant sur la petite flèche en haut à gauche, vous pouvez soit monter au +1 :



Soit descendre au -1 :

Pourquoi s'est intéressant ?

Cette fonctionnalité existe dans Google Maps depuis quelques temps, mais dans Google Maps les données sont fermées. Si vous avez un intérêt pour les bouches d'incendie ou les arbres remarquables vous ne les trouverez pas dans Google Maps (si il y a des mappers qui font une fixette sur les bornes d'incendie, et sur plein d'autres choses aussi...) . 

En revanche OSM est ouvert et gratuit. Vous pouvez proposez d'y cartographier ce qui vous intéresse et les données sous-jacentes restent disponibles gratuitement. 
Pour les gares, qui sont des bâtiments utilisés par un large public et qui contiennent toutes sortes d'équipements techniques, artistiques, commerciaux, la cartographie ouverte et libre s'impose.

C'est super, mais que puis je faire pour aider ? 

Si on dé-zoome un peu sur la gare St Lazare, on voit que le Centre Commercial du "Passage du Havre" est bien mappé. En revanche les corridors du métro ne sont pas toujours visibles et quand ils le sont, ce n'est pas forcément avec des niveaux "cohérents".

 
Il reste donc du travail. D'abord pour recueillir les informations, ensuite et surtout pour les mettre progressivement en cohérence. Comme d'habitude avec OpenStreetMaps, plus les informations sont bien visualisées, plus les mappers ont envie et intérêt à saisir des informations précises et exactes. 

OpenLevelUp est donc un étape nécessaire et importante pour la cartographie OSM en particulier pour la cartographie indoor et en particulier pour la cartographie des gares. Si vous ne l'avez jamais fait et que vous voulez vous y mettre, un bon point de départ ici.

Pour les développeurs qui voudraient aider Adrien à poursuivre ses développements (une version mobile est sur le feu) : https://github.com/PanierAvide/panieravide.github.io.

J'ai testé deux MOOC sur Big Data et Machine Learning

Je n'ai pas été très présent sur Transid ces derniers temps pour cause de MOOC [Massive Online Open Course, en français : Formation en ligne ouverte à tous... bref des cours en ligne]. 

Je me suis en effet inscrit d'une part :

J'avais aussi tenté, il y a quelques mois, de suivre le CS 109 Data Science de Harvard, mais j'avais "calé" à la moitié. Il s'agit en effet d'un ensemble de ressources (tout à fait remarquables) disponibles en ligne : conférences, exercices... mais sans aucune contraintes de réalisation, ni d'évaluation. Cette approche type "candidat libre" n'a pas entretenu ma motivation. Les deux cours dont je vous parle aujourd'hui nécessite de s'inscrire (mais sont gratuits) et de respecter le calendrier des cours et des évaluations.

Coursera est l'une des principales plateformes mondiales aux côtés de edX et de Udacity. Le cours "Machine Learning", proposé par Andrew Ng, un des fondateurs de Coursera, est en quelque sorte un "produit d'appel" pour Coursera. Il a déjà été suivi par plus de 100 000 élèves. C'est un produit bien rodé. 

Le cours est composé de 18 leçons sur 10 semaines. Chaque leçon est composée d'une demi douzaine de vidéos d'une dizaine de minutes chacune et d'un support de cours sous forme de transparents. Les vidéos peuvent être visualisées "en accéléré", ce qui peut vous faire gagner du temps (tout en faisant progresser votre anglais !). Elles contiennent une ou deux "questions à choix multiples" intégrées dans la vidéo, ce qui a le mérite de vous obliger à soutenir votre attention.

Après le cours, un QCM et des exercices de programmation permettent de vous évaluer. Les exercices sont accompagnés d'un "poly" et constituent un excellent complément au cours. L'ensemble permet d'aboutir à des résultats vraiment étonnants comme la réalisation d'un réseau de neurones permettant de la reconnaissance de caractères manuscrits. Cela m'a permis de couvrir les notions de régression linéaires et logistique, les réseaux de neurones, les algorithmes SVM (Support Vector Machines) et de clustering (k-means), les systèmes de recommandations et de détections d'anomalies, plus quelques considérations sur les aspects techniques. Ni la technologie, ni les notions mathématiques ne sont particulièrement approfondies, mais les réalisations sont nombreuses et spectaculaires. 

Au total, ce cours m'a passionné et je vous le recommande si vous voulez aller un peu au delà du Buzz ambiant sur le Big Data et le Digital... La seule réserve concerne le langage de programmation utilisé : Octave, qui n'est pas très courant, mais qui permet une évaluation automatique des exercices.

France Université Numérique est une initiative publique, française et francophone. Le cours "les fondamentaux du Big Data" est proposé par plusieurs enseignants de Telecom Paris Tech est peut être suivi en préparation du Mastère Spécialisé « Big data : Gestion et analyse des données massives » ou d'autres formations du catalogue de Telecom Paris Tech. 

Il est composé de 7 leçons sur 7 semaines, avec conférences, support de cours et QCM d'évaluation, mais pas de solution d'évaluation de codes. Il est beaucoup plus théorique que Machine Learning et a eu le mérite de me remettre en tête les principales notions mathématiques sous-jacentes : algèbre, analyse, probabilités et statistiques. 

Une leçon portait sur les technologies. Il était intéressant, mais au global, les exemples d'applications et les exercices de mise en oeuvre sont trop limités. En particulier, l'absence d'outils pour évaluer les exercices de programmation est un gros handicap pour ce type de formation.

Je vous encourage à essayer les cours en ligne. Choisissez un sujet sur lequel vous êtes réellement motivés car le temps que vous devrez y consacrer n'est pas négligeable... En ce qui me concerne, les évaluations, le rythme imposé pour remettre les exercices d'évaluation et le sentiment d'appartenir à un groupe d'élèves tendus vers l’achèvement du MOOC, ont été les éléments motivant qui avaient manqué pour aller au bout du CS 109 d'Harvard. 

Si vous avez des recommandations  à me faire sur mes sujets de prédilections : le numérique et la mobilité urbaine, laissez moi un commentaire ou un tweet !

Je n'ai pas encore le résultat de Machine Learning, mais j'ai mon certificat pour "Big Data".


"Data Driven" un e-book sur la culture de la donnée

Je suis, de longue date, un "follower" de Hillary Mason data scientist, fondatrice des Fast Forward Labs. J'apprécie ses conférences et son blog et je me suis donc précipité sur son petit e-book gratuit, sur la culture de la donnée et les organisations "data driven". Le livre est co-écrit avec DJ Patil. et publié chez O'Reilly
Voici ce que j'en retiens et que cela nous vous dissuade pas de le lire vous même !

Après avoir rappelé que la technologie est toujours moins importante que les gens qui s'en servent, les auteurs reviennent sur la définition des data scientists. Ils combinent plusieurs compétences dans trois domaines :
  • maths et stats,
  • développement informatique et maîtrise d'un ou plusieurs langages, 
  • communication et capacité à donner à leur travaux un impact sur les opérations... 
Mais ils doivent surtout être bien intégrés dans le management de l'entreprise (je dirai dans le "métier"), pour disposer des bons éléments de contexte. Au niveau du comité de direction l'expertise sur les données est fournie par le chief data officer complémentaire du CIO et du CTO.

Après un chapitre sur ce qu'est une organisation "data driven", les auteurs abordent un point essentiel : l'accès à la donnée. 
Leur recommandation est claire : dans une organisation, chacun doit avoir accès à toute l'information disponible (dans les limites légales). Cette pratique me semble encore minoritaire en France, ou le "besoin d'en connaitre" reste prévalant. Bien entendu, l'accessibilité nécessite la diffusion de compétences et d'outils, y compris pour les fonctions traditionnellement les moins techniques de l'entreprise.

On passe ensuite en revue quelques points importants de méthode avant de s'intéresser à l'organisation et au process. Sur ce dernier sujet, un chapitre est consacré aux tableaux de bord et deux autres aux réunions d'analyses des données.

Le livre se conclue par deux chapitres, l'un sur les outils et l'autre sur la culture... Je vous laisse méditer cette citation :
"The secret of great data science is that the tools are almost irrelevant.", 
qui est, naturellement, nuancée dans le texte, mais qui a le mérite de dissiper la fascination qu'on peut avoir à propos des outils en particulier dans le domaine de la data....