Données ouvertes et données utiles

Les derniers à résister à l'ouverture des données sont en général les premiers à en attendre des "résultats concrets". Ceux qui subissent l'Open Data demandent immédiatement : où sont les multiples applications innovantes développées à peu de frais pour l'entreprise ou la collectivité ? quel est le modèle économique ? ces données ouvertes ont elles une utilité économique ? 

Voici quelques pistes pour évaluer et si possible augmenter l'utilité des données ouvertes.

Savoir ce que vous en attendez
Il n'y a pas de vent favorable pour le bateau qui ne sait pas où il va. L'ouverture des données peut servir plusieurs objectifs : assurer la conformité réglementaire, améliorer l'image de votre organisation, catalyser la co-création d'apps ou de services, informer vos clients ou vos administrés, focaliser vos ressources sur vos missions essentielles, servir la stratégie de plateforme de votre organisation, attirer des partenaires...
Toutes les données ne sont pas bonnes à ouvrir, une ouverture subie ou mal maîtrisée peut menacer vos revenus ou augmenter les risques de désintermédiations. Il est nécessaire de choisir les données ouvertes, les modalités d'ouverture : licences, documentation, API ou fichiers, fréquences de mise à jour, volume et représentativité des données ouvertes... en fonction de vos objectifs et de proportionner vos attentes aux moyens mis en oeuvre.

Soigner l'animation
Il ne suffit en général pas d'ouvrir des données (ou quoique ce soit) pour que les ré-utilisateurs (les clients) se pressent au portillon.
L'animation des communautés visées, la prise en compte des remarques éventuelles sur la qualité de vos données, l'animation interne et externe, la documentation, le cas échéant des exemples d'utilisation... sont des ingrédients importants du succès. Les hackathons et autres concours sont des temps forts et visibles, mais l'écoute et l'appui au quotidien sont indispensables comme l'expliquait le MassDOT dès 2009.


Prendre en compte les effets internes
L'ouverture des données est rarement "neutre" du point de vue des processus et des outils de production habituels de l'entreprise ou de la collectivité. Il est rare, par exemple, que le processus d'ouverture ne soit pas l'occasion d'améliorer la ré-utilisation en interne. L'ouverture est naturellement un moyen efficace de développer la culture des données dans l'organisation. Ces gains de productivité ou de qualité, dans la durée, peuvent être significatifs.

Evaluer sur un temps long (12 mois au moins)
L'utilité de l'open data ne s'apprécie pas dans les jours qui suivent l'ouverture des données et elle n'est pas automatique. Il faut un temps pour que la "communauté" repère les données, se les approprie, puis commence à les utiliser. Il faut encore un peu de temps pour certaines réalisations deviennent visibles.
En outre, une large part de l'utilité est conditionnée par le développement de nouvelles coopérations entre l'entreprise ou la collectivité "ouvrant" et les "communautés" réutilisant. Les conséquences de ces nouvelles coopérations et les bénéfices internes qui en découlent, sont perçus lorsque l'organisation s'adapte. Or le temps de la transformation, en particulier dans les grandes structures, est un temps long.

Ratisser suffisamment large
L'utilité des données ouverte est liée à la force de la communauté qui va s'en saisir. Pour mobiliser et développer une communauté importante vous pouvez utiliser les réseaux sociaux et faire de la pub mais mieux vaut proposer une offre excellente et  à "large bande".
  1. Une stabilité sur une bande de temps large. Le temps que les ré-utilisateurs vont consacrer à vos données est précieux. Il est nécessaire de sécuriser leurs investissements en garantissant une certaine stabilité dans la publication des données (fréquences, format, qualité...). Cette stabilité attendue par ceux qui ont déjà développé leurs applications s'oppose parfois aux demandes d'évolutions et d'innovations venant de ceux qui n'ont pas encore la matière première suffisante pour développer la leur... Tout est donc question de mesure ! Les évolutions importantes voir la fermeture d'une API doivent être annoncées longtemps à l'avance pour permettre aux développeurs d'anticiper et garder leur confiance.
  2. Un niveau de service (et de prix) à large bande. Malheureusement il y a peu de miracles, les ré-utilisateurs doivent trouver des clients pour pouvoir vivre et faire vivre leurs applications... Il faut le comprendre et les aider via une offre adaptée aux besoins des clients des ré-utilisateurs ! Si pour certains la gratuité de l'accès est une condition sine qua none, pour d'autres, la qualité du service, sa tenue à la charge peuvent être des exigences fortes pour lesquelles un contrat avec Service Level Agreement payant sera nécessaire.  
  3. Des données à large couverture. La force de la communauté est directement liée à la couverture de données. On salue l'initiative de Thierry Verdier qui a développé Ma ligne C sous Windows 8, sur les seules données du RER C ouvertes par Transilien en 2012, mais il faut attendre une ouverture plus large de données pour mobiliser plus d'utilisateurs potentiels, et plus de développeurs. A l'inverse, JCDecaux, a ouvert, certes tardivement, mais dans une vingtaine de métropoles d'un coup ! Voilà une zone de chalandise intéressante parce qu'elle est suffisamment large. 
Designez vos API
Les promoteurs de l'open data au sens strict privilégient la mise à disposition  de "données brutes" sur l'ouverture d'API. En pratique, néanmoins, certaines données sont plus "utiles" si elles le sont sous forme d'API. Dans le domaine du transport, par exemple, l'ouverture des données "temps réel" passe par la mise à disposition d'API. L'ouverture des données théoriques peut être faites via des fichiers statiques (typiquement au format GTFS), mais les complexités métiers de ces données, font que certains développeurs préféreront  utiliser des API comme celles proposées par Transilien ou celles de navivitia.io (une initiative intéressante qui mériterait d'ailleurs un article dédié).
Les API présentent aussi le mérite, du point de vue de l'organisation qui ouvre, de constituer un lien pérenne avec les communautés ré-utilisatrices.
Les API sont certes des objets techniques, mais les considérations de design sont extrêmement importantes. Des API bien conçues seront découvertes, comprises et utilisées aisément par les développeurs. Elles doivent être à la fois simples pour être faciles à utiliser, mais suffisamment flexibles pour ne pas contraindre les développeurs quelques soient leurs objectifs applicatifs.
Twitter, par exemple, propose trois niveaux d'API avec des rapports complexité/flexibilité différents.
D'une part des API très simples permettant de "citer un tweet" ou une Timeline.
Cette API est très simple, mais elle ne permet pas d'accéder aux données détaillées du tweet (par exemple les caractéristiques du compte de l'auteur). L'API rest le permet, mais son utilisation est un peu plus complexe. Enfin pour ceux qui seraient tentés d'analyser non pas un tweet, mais véritablement un flux de tweets à la volée, l'API streaming est nécessaire. L'ensemble de ces API est naturellement copieusement documenté et commenté sur le site de Twitter mais aussi sur diverses autres ressources techniques.
Des entreprises se spécialisent dans l'assistance à la conception d'API. Apigee, qui en fait partie, propose de  nombreuses présentations sur le sujet.

Cet article fait partie d'une série "post open data" introduite par Open data dans les transports en Île de France : et après ?

Google I/O : quelques annonces pour le transport public

Cette année, la conférence annuelle des développeurs Google I/O a surpris les observateurs par sa densité et le très grand nombre d'annonces. La stratégie de plateforme de Google en fait un acteur dominant sur de nombreux marchés et cette conférence a été l'occasion de faire la démonstration de la cohérence de cette stratégie sur l'ensemble des supports et sur un grand nombre de technologies clés.

La démonstration la plus parlante de cette cohérence me semble être la démonstration de Google Now (juste au début de la 2ième heure de la conférence de lancement) : les fonctions de calcul d'itinéraire, de recherche, de réservation pour les vols ou les hôtels... sont parfaitement intégrées et bénéficient des fonctions de recherche vocale et prédictive développées par Google.

Voici une sélection des annonces les plus marquantes spécifiquement pour le domaine de la mobilité : la cartographie indoor, l'API de détection de l'activité de l'utilisateur [comprendre : de son mode de déplacement] et diverses autres annonces facilitant la vie des développeurs.

La cartographie indoor
Google est désormais capable de cartographier l'intérieur des centres commerciaux y compris sur plusieurs étages. Les efforts de Google en la matière portent sur plusieurs fronts :

  • précision de la localisation indoor, qui serait actuellement en moyenne de 8m grâce à l'utilisation de l'API de localisation "haute précision" de Google, 
  • les outils permettant aux utilisateurs de contribuer (notamment pour enrichir et tenir à jour ces plans détaillés),
  • et les API pour que les développeurs créent des applications. 

Les difficultés évoquées par Google sont :

  • d'abord l'accès aux données dans des espaces privés, 
  • les difficultés de localisation et les performances insuffisantes du GPS notamment pour déterminer l'étage auquel vous vous trouvez (Google évoque la possibilité de mesurer la pression atmosphérique). 

A la minute 19, dans la vidéo ci-dessous, se trouve un exemple d'usage sur une gare de Tokyo avec des indications de guidage d'un quai à un autre.

Les explications techniques montrent comment Google propose aux utilisateurs non seulement de cartographier les lieux mais aussi de les aider à renseigner les outils de géolocalisation (en collectant les données WiFi, GPS, GSM et les autres capteurs de votre téléphone : accéléromètre, boussole...) pour proposer un service de localisation de haute qualité.

La localisation indoor est proposée comme une API pour les développeurs Android et cela ouvre d'immenses possibilités pour des applications nouvelles dites "contextuelles" (comme Google now)  qui tiendront précisément compte de l'endroit où vous vous trouvez.

Google expérimente ces applications utilisant les fonctions de localisation avancées dans le cadre du "projet Niantic" avec le jeux Ingress et le guide Field Trip.

La détection de l'activité
Google Maps Android API propose une nouvelle API détectant votre "activité". Elle détecte le mode de déplacement que vous utilisez parmi les quatre suivants : marche, vélo, véhicules, au repos, sur place... Cela est expliqué à partir de la minute 27 de cette vidéo qui évoque aussi les fonctions de geofencing qui peuvent aussi trouver une réelle utilité dans l'univers du transport... Toujours dans la même vidéo, vous trouverez une démonstration de la fonction "smart camera" de Google Maps sur Android qui utilise aussi les capteurs et qui permet de visualiser la carte du territoire qui vous entoure en déplaçant votre tablette comme une caméra.

Google enrichie et met en cohérence son offre à destination des développeurs.
Les technologies proposées permettent de coder rapidement des applications avancées en masquant la complexité de certaines fonctions. C'est par exemple le cas pour :
  1. Les fonctions d'authentification et de gestion de l'identité de vos internautes. Elles permettent d'offrir une expérience cohérente sur votre site internet et sur votre application Android, par exemple en décidant d'installer l'application sur son mobile à partir de votre site ou en retrouvant ses préférences définies sur le site dans l'application.
  2. La gestion du BlueTooth sur vos applications mobiles et de la nouvelle génération dite BLE pour Bluetooth Low Energy ou Bluetooth Smart
  3. Le gestion des interfaces sur différentes plateformes : mobile, tablettes, PC, TV connectées...
  4. Les services de paiement du Google Wallets qui s'enrichissent de "wallet objects". Des objets facilitant la création de services de couponing ou de cartes de fidélité...
  5. Plus généralement, un outil de développement sur Android promet d'augmenter la productivité des développeurs. De nombreux services complémentaires notamment en matière de statistiques d'usage sur les applications mobiles, de "tests AB" sur ces applications (qui permettent de tester différentes versions de votre application avant d'en généraliser le déploiement) doivent permettre d'améliorer la performance de vos applications.
Et vous ? avez vous repéré quelque chose d'autre dans cet ensemble d'annonces ?

Post open data : Développer la culture des données ?

Les premiers jeux de données ouverts témoignaient, parfois, d'un manque de connaissance sur les mécanismes basiques de la réutilisation. Ces maladresses sont, en général, rapidement repérées et parfois corrigées par les "ré-utilisateurs"  dès que les données sont publiées. C'est un des premiers bénéfices de l'Open Data car ces "petits défauts" sont , en réalité, coûteux. Ils témoignent  d'un manque de maîtrise des données et d'efficacité dans les processus internes à l'entreprise.

En voici deux exemples concrets :
  1. La mise en forme des données est, souvent faite avec beaucoup de soin. Il s'agit de faciliter l'interprétation des données pour des lecteurs pressés. Cette interprétation "par défaut", constitue, souvent involontairement, un obstacle à la réutilisation et à la réutilisation automatisée en particulier. Les fichiers orientés "visualisation" : pdf, fichiers issus des suites bureautiques Microsoft, ou de logiciels de création graphique... si pratiques pour présenter des données à un auditoire d'humains, ne se prêtent pas toujours à une utilisation directe par une machine. Simon Chignard évoque ce sujet avec un exemple précis dans données brutes ou données contextualisées. A l'inverse, des tableaux type "base de données" listant simplement un objet par ligne et une valeur décrivant l'objet par colonne permettent de faire abstraction de toute mise en forme. La réutilisation est alors facilitée même lorsque le "parti pris" du ré-utilisateur n'est pas celui de l'éditeur. Des formats de données type xml, csv, json sont particulièrement adaptés à la réutilisation parce qu'ils interdisent la "mise en forme". On gagne en ré-utilisabilité ce qui est perdu en lisibilité ! et on s'achemine vers la généralisation des API au sein de l'entreprise... Mais c'est un sujet dont on reparlera !
  2. La production de versions régulièrement actualisées d'un fichier ou la production de plusieurs fichiers complémentaires sur un même thème est un cas d'usage fréquent en entreprise. Pour relier les grandeurs concernant un même objet dans les différents fichiers il est nécessaire de recourir à un identifiant... Et là les choses peuvent se compliquer ! Un exemple classique dans le domaine du transport est celui des gares ou des arrêts. Le nom des arrêts ne constitue, en effet rarement, un identifiant stable. En pratique le nom pourra-t-être écrit en majuscule, en minuscule, avec ou sans abréviation (CDG, St Lazare, F. Mitterrand...). Le recours a un identifiant numérique univoque (si possible un code numérique) est loin d'être systématique. Il est pourtant nécessaire pour une réutilisation automatique rapide.
La culture des données ne se limite pas à ces deux exemples un peu triviaux. Sans aller jusqu'à la "big data", une réflexion modeste et pratique sur les outils et les processus de traitement des données dans l'entreprise peut apporter des gains importants. C'est ce qu'explique brillamment Matti Keltanen dans The Guardian.

Les hackathons, internes et externes et autres labs peuvent être de véritables catalyseurs pour la culture de la donnée en sensibilisant les acteurs par l'expérimentation.

Metrography by Benedikt Groß & Bertrand Clerc
Une certaine considération managériale pour l'analyse quantitative dans les décisions d'entreprise est cohérente avec le développement de la culture de la donnée et est, évidemment,  susceptible d'en favoriser la diffusion. Cela n'est pas acquis dans les entreprises qui valorisent parfois l'analyse qualitative voire l'intuition, ou "l'opinion des personnes dont le salaire est élevé" (les fameuses "Highly Paid Person Opinions" évoquées dans cet article Votre entreprise est elle plutôt Data ou Hippo ?) .

L'Open Data Institute britannique fait de la promotion de la data culture un objectif  de premier plan. Le mécénat d’œuvres artistiques utilisant des données est un des moyens utilisés.

Cela donne un air un peu excentrique à l'open space de l'ODI. On y trouve par exemple ce distributeur qui libère ses produits lorsque le mot "recession" est utilisé sur la BBC (une oeuvre particulièrement coûteuse en ce moment) ou cette "metrography" de Benedikt Groß & Bertrand Clerc qui distord une carte pour la faire correspondre au plan du métro de Londres.

Dans un registre similaire, mais plus démocratique, les agitateurs de La Fonderie avaient réalisé l'Expoviz en 2012 dont le site mérite le détour et une exploration approfondie.

Alors, quels sont, pour vous, les moyens de développer la culture des données dans nos entreprises et administrations ? est ce un enjeux ?

Cet article fait partie d'une série "post open data" introduite par Open data dans les transports en Île de France : et après ?

Open Data dans les transports en Ile de France : mais après ?

Le temps passe, le monde bouge et les données du transport public s'ouvrent ! même à Paris... 

La RATP vient d'annoncer un OpenDataLab et d'après les exemples d'applications proposées; il se pourrait bien que les données horaires soient ouvertes à cette occasion (5 000€ pour le premier prix !).

JCDecaux vient d'ouvrir les données des Vélib pour une vingtaine de contrats dont celui de Paris. 

Door Ajar by jennaddenda, on Flickr
De nombreuses autres collectivités locales françaises se sont aussi lancées dans des opérations "open data".

Des jeux de données inédits et intéressants sont disponibles, j'ai par exemple repéré les comptages routiers linéaires du département des Hauts de Seine ou des données d'accidentologie en France sur data.gouv.fr.

Le phénomène ne se limite, bien sûr, pas aux données liées aux déplacements et à la mobilité mais touche toutes les compétences des collectivités locales.

Tout cela doit permettre aux plus créatifs de réaliser des applications intéressantes, c'est d'ailleurs l'objet du concours moovinthecity dont le lancement est prévu le 21 juin et qui propose 25 000 € de prix.

Il semble que le mouvement soit maintenant effectivement lancé de façon irréversible et je m'en réjouit en relisant la longue liste d'articles écrits sur le sujet depuis 2009.

En même temps, beaucoup reste à faire, je vous propose de nous pencher sur ce "reste à faire" dans plusieurs articles à venir. J'aimerai notamment parler de la diffusion de la "culture des données" dans les entreprises, de la mesure du succès des opérations d'ouverture des données et aborder les perspectives ouvertes par les données liées.

Comme toujours, vos avis, idées, questions ou contributions sont bienvenues en commentaires ci dessous ou sur Twitter.