Post open data : Développer la culture des données ?

Les premiers jeux de données ouverts témoignaient, parfois, d'un manque de connaissance sur les mécanismes basiques de la réutilisation. Ces maladresses sont, en général, rapidement repérées et parfois corrigées par les "ré-utilisateurs"  dès que les données sont publiées. C'est un des premiers bénéfices de l'Open Data car ces "petits défauts" sont , en réalité, coûteux. Ils témoignent  d'un manque de maîtrise des données et d'efficacité dans les processus internes à l'entreprise.

En voici deux exemples concrets :
  1. La mise en forme des données est, souvent faite avec beaucoup de soin. Il s'agit de faciliter l'interprétation des données pour des lecteurs pressés. Cette interprétation "par défaut", constitue, souvent involontairement, un obstacle à la réutilisation et à la réutilisation automatisée en particulier. Les fichiers orientés "visualisation" : pdf, fichiers issus des suites bureautiques Microsoft, ou de logiciels de création graphique... si pratiques pour présenter des données à un auditoire d'humains, ne se prêtent pas toujours à une utilisation directe par une machine. Simon Chignard évoque ce sujet avec un exemple précis dans données brutes ou données contextualisées. A l'inverse, des tableaux type "base de données" listant simplement un objet par ligne et une valeur décrivant l'objet par colonne permettent de faire abstraction de toute mise en forme. La réutilisation est alors facilitée même lorsque le "parti pris" du ré-utilisateur n'est pas celui de l'éditeur. Des formats de données type xml, csv, json sont particulièrement adaptés à la réutilisation parce qu'ils interdisent la "mise en forme". On gagne en ré-utilisabilité ce qui est perdu en lisibilité ! et on s'achemine vers la généralisation des API au sein de l'entreprise... Mais c'est un sujet dont on reparlera !
  2. La production de versions régulièrement actualisées d'un fichier ou la production de plusieurs fichiers complémentaires sur un même thème est un cas d'usage fréquent en entreprise. Pour relier les grandeurs concernant un même objet dans les différents fichiers il est nécessaire de recourir à un identifiant... Et là les choses peuvent se compliquer ! Un exemple classique dans le domaine du transport est celui des gares ou des arrêts. Le nom des arrêts ne constitue, en effet rarement, un identifiant stable. En pratique le nom pourra-t-être écrit en majuscule, en minuscule, avec ou sans abréviation (CDG, St Lazare, F. Mitterrand...). Le recours a un identifiant numérique univoque (si possible un code numérique) est loin d'être systématique. Il est pourtant nécessaire pour une réutilisation automatique rapide.
La culture des données ne se limite pas à ces deux exemples un peu triviaux. Sans aller jusqu'à la "big data", une réflexion modeste et pratique sur les outils et les processus de traitement des données dans l'entreprise peut apporter des gains importants. C'est ce qu'explique brillamment Matti Keltanen dans The Guardian.

Les hackathons, internes et externes et autres labs peuvent être de véritables catalyseurs pour la culture de la donnée en sensibilisant les acteurs par l'expérimentation.

Metrography by Benedikt Groß & Bertrand Clerc
Une certaine considération managériale pour l'analyse quantitative dans les décisions d'entreprise est cohérente avec le développement de la culture de la donnée et est, évidemment,  susceptible d'en favoriser la diffusion. Cela n'est pas acquis dans les entreprises qui valorisent parfois l'analyse qualitative voire l'intuition, ou "l'opinion des personnes dont le salaire est élevé" (les fameuses "Highly Paid Person Opinions" évoquées dans cet article Votre entreprise est elle plutôt Data ou Hippo ?) .

L'Open Data Institute britannique fait de la promotion de la data culture un objectif  de premier plan. Le mécénat d’œuvres artistiques utilisant des données est un des moyens utilisés.

Cela donne un air un peu excentrique à l'open space de l'ODI. On y trouve par exemple ce distributeur qui libère ses produits lorsque le mot "recession" est utilisé sur la BBC (une oeuvre particulièrement coûteuse en ce moment) ou cette "metrography" de Benedikt Groß & Bertrand Clerc qui distord une carte pour la faire correspondre au plan du métro de Londres.

Dans un registre similaire, mais plus démocratique, les agitateurs de La Fonderie avaient réalisé l'Expoviz en 2012 dont le site mérite le détour et une exploration approfondie.

Alors, quels sont, pour vous, les moyens de développer la culture des données dans nos entreprises et administrations ? est ce un enjeux ?

Cet article fait partie d'une série "post open data" introduite par Open data dans les transports en Île de France : et après ?

Open Data dans les transports en Ile de France : mais après ?

Le temps passe, le monde bouge et les données du transport public s'ouvrent ! même à Paris... 

La RATP vient d'annoncer un OpenDataLab et d'après les exemples d'applications proposées; il se pourrait bien que les données horaires soient ouvertes à cette occasion (5 000€ pour le premier prix !).

JCDecaux vient d'ouvrir les données des Vélib pour une vingtaine de contrats dont celui de Paris. 

Door Ajar by jennaddenda, on Flickr
De nombreuses autres collectivités locales françaises se sont aussi lancées dans des opérations "open data".

Des jeux de données inédits et intéressants sont disponibles, j'ai par exemple repéré les comptages routiers linéaires du département des Hauts de Seine ou des données d'accidentologie en France sur data.gouv.fr.

Le phénomène ne se limite, bien sûr, pas aux données liées aux déplacements et à la mobilité mais touche toutes les compétences des collectivités locales.

Tout cela doit permettre aux plus créatifs de réaliser des applications intéressantes, c'est d'ailleurs l'objet du concours moovinthecity dont le lancement est prévu le 21 juin et qui propose 25 000 € de prix.

Il semble que le mouvement soit maintenant effectivement lancé de façon irréversible et je m'en réjouit en relisant la longue liste d'articles écrits sur le sujet depuis 2009.

En même temps, beaucoup reste à faire, je vous propose de nous pencher sur ce "reste à faire" dans plusieurs articles à venir. J'aimerai notamment parler de la diffusion de la "culture des données" dans les entreprises, de la mesure du succès des opérations d'ouverture des données et aborder les perspectives ouvertes par les données liées.

Comme toujours, vos avis, idées, questions ou contributions sont bienvenues en commentaires ci dessous ou sur Twitter.

Cartographies spécialisées dans OSM : exemple au golf de Lésigny

OpenStreetMap est plus qu'une simple carte et même plus qu'une carte ouverte et participative (ce qui est déjà pas mal !). C'est aussi un véritable modèle du territoire qui peut permettre de décrire des objets géographiques particuliers répondant aux besoins de communautés parfois très spécialisées.

Un exemple récent permet d'illustrer cela de façon simple. Le terrain de golf de Lésigny se trouve en région parisienne en bordure de Francilienne. Son rendu sur openstreetmap.org est relativement similaire à ce que vous pouvez trouver sur Google Maps comme on peut le voir dans l'outil de comparaison de Geofabrik :


Pour l'automobiliste se rendant quotidiennement au boulot, pas d'intérêt majeur à recourir à OSM donc !
Mais un autre rendu ravira les amateurs de golf. Sur osmfr vous trouverez les détails des différents "trous", les bunkers :

L'emplacement des greens, des fanions, des départs, les limites du fairway, du rough ont été minutieusement renseignés par un (ou plusieurs) passionnés.

Un extrait de ces données (qui étant ouvertes, peuvent être aisèment téléchargées et analysées par tous) revèle par exemple que l'utilisateur courdi95 a créé le juin 2012 un objet de type "WAY" (qui est un petit polygone définit par les coordonnées de ses sommets) qu'il a associé aux TAGs de valeur Bunker dans la catégorie Golf et Sand dans la catégorie Natural.

Reste à rendre ces données visibles dans les outils de rendu cartographique. Par défaut, elles ne le sont pas toujours dans certaines "feuilles de style" des outils de rendu. Rien n'empêche, en revanche, le golfeur émérite, ou le webmestre d'un site dédié au golf de mettre à disposition du public un outil de rendu paramétré pour mettre ces détails en valeur. C'est ce que propose osmfr grâce au travail de Christian Quest.

Pour généraliser :
  1. Les outils de rendu ne donnent accès qu'à une partie des données existantes dans OSM,
  2. Les besoins de cartographies thématiques peuvent, en général, être traités dans OSM, 
  3. Pour motiver les mappers il convient, bien entendu, de respécter les régles de la communauté, mais aussi, de proposer :
    • un outil de rendu permettant de "voir" les détails thématiques qui vous intéressent,  
    • et éventuellement, de proposer un outil d'édition adapté pour faciliter le travail des mappers.
Le thème de ce blog n'est pas le golf, mais la mobilité et les transports publics en particulier. Dans ce domaine les cartographies thématiques : plans des lignes ou de plans des gares...  sont intéressantes. 

Dans le domaine des gares en particulier, une réflexion sur les outils de recueil et de rendu les plus adaptés pour présenter les différents niveaux des gares, les objets comme les quais, les escaliers, les obstacles, les automates de distributions, les guichets... aurait, me semble-t-il du sens.
Il s'agirait, notamment, de proposer un niveau de zoom plus fort que celui disponible en standard, une gestion des "niveaux" et un rendu des principaux objets spécifiques. 
Cela permettrait d'aller encore au delà de ce qui est fait actuellement et que nous avions déjà évoqué dans un article sur les plans de gares de France.