Les niveaux à l'intérieur d'un batiment dans OSM avec OpenLevelUp

Je profite du Week End pour passer un coup de chapeau, tarif peut être, mais appuyé à Adrien Pavie qui a mis en ligne OpenLevelUp.

De quoi s'agit il ? 

Il s'agit d'un outil permettant de visualiser certains détails de la cartographie ouverte OpenStreetMap Son objectif est de visualiser facilement intérieur des bâtiments avec, là est le point important, la possibilité de visualiser les niveaux lorsqu'ils sont renseigner dans OSM. C'est quelques choses que j'attendais depuis longtemps....

Exemple  ?

Si vous observer Paris, des bulles colorées vous permettront de repérer les endroits où se trouvent des lieux disposant de "plusieurs niveaux".


Si vous zoomez sur la gare St Lazare, vous allez voir apparaître le bâtiment de la gare et les informations sur les commerces ou les escalators qui s'y trouvent....



Evidemment la gare est, en réalité, constituée de plusieurs niveaux. Celui que vous voyez ci-dessus est le niveau 0... En cliquant sur la petite flèche en haut à gauche, vous pouvez soit monter au +1 :



Soit descendre au -1 :

Pourquoi s'est intéressant ?

Cette fonctionnalité existe dans Google Maps depuis quelques temps, mais dans Google Maps les données sont fermées. Si vous avez un intérêt pour les bouches d'incendie ou les arbres remarquables vous ne les trouverez pas dans Google Maps (si il y a des mappers qui font une fixette sur les bornes d'incendie, et sur plein d'autres choses aussi...) . 

En revanche OSM est ouvert et gratuit. Vous pouvez proposez d'y cartographier ce qui vous intéresse et les données sous-jacentes restent disponibles gratuitement. 
Pour les gares, qui sont des bâtiments utilisés par un large public et qui contiennent toutes sortes d'équipements techniques, artistiques, commerciaux, la cartographie ouverte et libre s'impose.

C'est super, mais que puis je faire pour aider ? 

Si on dé-zoome un peu sur la gare St Lazare, on voit que le Centre Commercial du "Passage du Havre" est bien mappé. En revanche les corridors du métro ne sont pas toujours visibles et quand ils le sont, ce n'est pas forcément avec des niveaux "cohérents".

 
Il reste donc du travail. D'abord pour recueillir les informations, ensuite et surtout pour les mettre progressivement en cohérence. Comme d'habitude avec OpenStreetMaps, plus les informations sont bien visualisées, plus les mappers ont envie et intérêt à saisir des informations précises et exactes. 

OpenLevelUp est donc un étape nécessaire et importante pour la cartographie OSM en particulier pour la cartographie indoor et en particulier pour la cartographie des gares. Si vous ne l'avez jamais fait et que vous voulez vous y mettre, un bon point de départ ici.

Pour les développeurs qui voudraient aider Adrien à poursuivre ses développements (une version mobile est sur le feu) : https://github.com/PanierAvide/panieravide.github.io.

J'ai testé deux MOOC sur Big Data et Machine Learning

Je n'ai pas été très présent sur Transid ces derniers temps pour cause de MOOC [Massive Online Open Course, en français : Formation en ligne ouverte à tous... bref des cours en ligne]. 

Je me suis en effet inscrit d'une part :

J'avais aussi tenté, il y a quelques mois, de suivre le CS 109 Data Science de Harvard, mais j'avais "calé" à la moitié. Il s'agit en effet d'un ensemble de ressources (tout à fait remarquables) disponibles en ligne : conférences, exercices... mais sans aucune contraintes de réalisation, ni d'évaluation. Cette approche type "candidat libre" n'a pas entretenu ma motivation. Les deux cours dont je vous parle aujourd'hui nécessite de s'inscrire (mais sont gratuits) et de respecter le calendrier des cours et des évaluations.

Coursera est l'une des principales plateformes mondiales aux côtés de edX et de Udacity. Le cours "Machine Learning", proposé par Andrew Ng, un des fondateurs de Coursera, est en quelque sorte un "produit d'appel" pour Coursera. Il a déjà été suivi par plus de 100 000 élèves. C'est un produit bien rodé. 

Le cours est composé de 18 leçons sur 10 semaines. Chaque leçon est composée d'une demi douzaine de vidéos d'une dizaine de minutes chacune et d'un support de cours sous forme de transparents. Les vidéos peuvent être visualisées "en accéléré", ce qui peut vous faire gagner du temps (tout en faisant progresser votre anglais !). Elles contiennent une ou deux "questions à choix multiples" intégrées dans la vidéo, ce qui a le mérite de vous obliger à soutenir votre attention.

Après le cours, un QCM et des exercices de programmation permettent de vous évaluer. Les exercices sont accompagnés d'un "poly" et constituent un excellent complément au cours. L'ensemble permet d'aboutir à des résultats vraiment étonnants comme la réalisation d'un réseau de neurones permettant de la reconnaissance de caractères manuscrits. Cela m'a permis de couvrir les notions de régression linéaires et logistique, les réseaux de neurones, les algorithmes SVM (Support Vector Machines) et de clustering (k-means), les systèmes de recommandations et de détections d'anomalies, plus quelques considérations sur les aspects techniques. Ni la technologie, ni les notions mathématiques ne sont particulièrement approfondies, mais les réalisations sont nombreuses et spectaculaires. 

Au total, ce cours m'a passionné et je vous le recommande si vous voulez aller un peu au delà du Buzz ambiant sur le Big Data et le Digital... La seule réserve concerne le langage de programmation utilisé : Octave, qui n'est pas très courant, mais qui permet une évaluation automatique des exercices.

France Université Numérique est une initiative publique, française et francophone. Le cours "les fondamentaux du Big Data" est proposé par plusieurs enseignants de Telecom Paris Tech est peut être suivi en préparation du Mastère Spécialisé « Big data : Gestion et analyse des données massives » ou d'autres formations du catalogue de Telecom Paris Tech. 

Il est composé de 7 leçons sur 7 semaines, avec conférences, support de cours et QCM d'évaluation, mais pas de solution d'évaluation de codes. Il est beaucoup plus théorique que Machine Learning et a eu le mérite de me remettre en tête les principales notions mathématiques sous-jacentes : algèbre, analyse, probabilités et statistiques. 

Une leçon portait sur les technologies. Il était intéressant, mais au global, les exemples d'applications et les exercices de mise en oeuvre sont trop limités. En particulier, l'absence d'outils pour évaluer les exercices de programmation est un gros handicap pour ce type de formation.

Je vous encourage à essayer les cours en ligne. Choisissez un sujet sur lequel vous êtes réellement motivés car le temps que vous devrez y consacrer n'est pas négligeable... En ce qui me concerne, les évaluations, le rythme imposé pour remettre les exercices d'évaluation et le sentiment d'appartenir à un groupe d'élèves tendus vers l’achèvement du MOOC, ont été les éléments motivant qui avaient manqué pour aller au bout du CS 109 d'Harvard. 

Si vous avez des recommandations  à me faire sur mes sujets de prédilections : le numérique et la mobilité urbaine, laissez moi un commentaire ou un tweet !

Je n'ai pas encore le résultat de Machine Learning, mais j'ai mon certificat pour "Big Data".


"Data Driven" un e-book sur la culture de la donnée

Je suis, de longue date, un "follower" de Hillary Mason data scientist, fondatrice des Fast Forward Labs. J'apprécie ses conférences et son blog et je me suis donc précipité sur son petit e-book gratuit, sur la culture de la donnée et les organisations "data driven". Le livre est co-écrit avec DJ Patil. et publié chez O'Reilly
Voici ce que j'en retiens et que cela nous vous dissuade pas de le lire vous même !

Après avoir rappelé que la technologie est toujours moins importante que les gens qui s'en servent, les auteurs reviennent sur la définition des data scientists. Ils combinent plusieurs compétences dans trois domaines :
  • maths et stats,
  • développement informatique et maîtrise d'un ou plusieurs langages, 
  • communication et capacité à donner à leur travaux un impact sur les opérations... 
Mais ils doivent surtout être bien intégrés dans le management de l'entreprise (je dirai dans le "métier"), pour disposer des bons éléments de contexte. Au niveau du comité de direction l'expertise sur les données est fournie par le chief data officer complémentaire du CIO et du CTO.

Après un chapitre sur ce qu'est une organisation "data driven", les auteurs abordent un point essentiel : l'accès à la donnée. 
Leur recommandation est claire : dans une organisation, chacun doit avoir accès à toute l'information disponible (dans les limites légales). Cette pratique me semble encore minoritaire en France, ou le "besoin d'en connaitre" reste prévalant. Bien entendu, l'accessibilité nécessite la diffusion de compétences et d'outils, y compris pour les fonctions traditionnellement les moins techniques de l'entreprise.

On passe ensuite en revue quelques points importants de méthode avant de s'intéresser à l'organisation et au process. Sur ce dernier sujet, un chapitre est consacré aux tableaux de bord et deux autres aux réunions d'analyses des données.

Le livre se conclue par deux chapitres, l'un sur les outils et l'autre sur la culture... Je vous laisse méditer cette citation :
"The secret of great data science is that the tools are almost irrelevant.", 
qui est, naturellement, nuancée dans le texte, mais qui a le mérite de dissiper la fascination qu'on peut avoir à propos des outils en particulier dans le domaine de la data....