Information pour les hommes et données pour les machines ?

Cet article fait partie d'une série.

L'information constitue généralement l'objectif recherché par un être humain lorsqu'il pose une
question. Cette information passe par un support qui doit pouvoir être interprété par un homme : son ou parole, écrit ou image.

L'intelligence humaine exploite le contexte pour interpréter les questions et les réponses. L'échange :
A: "Quel est le prochain train pour aller au Château Versailles ?",
B: "Quai 2, dépêchez vous il part dans 5 minutes"
B apporte à A une information complète qui répond à son besoin. Mais cette information est liée à un contexte : lieu, jour et heure précise qui n'est connu des deux interlocuteurs.

Ce contexte et nos capacités de déduction, permettent aussi de comprendre que le voyageur souhaite se rendre en train jusqu'à la gare de Versailles puis au Château probablement à pied et non "en train jusqu'au Château de Versailles".

Les machines ne disposent pas de nos capacités d'interprétation et sont, en général, totalement incapable de comprendre une information contextuelle conçue pour un homme. C'est évidemment le cas pour une phrase, cela l'est aussi pour une fiche horaire, un document word, un fichier excel.

Au final, l'information échangée par nos deux voyageurs contient des données : numéro du quai, toponymie, durée... Beaucoup de documents d'information : fiches horaires, plans, feuille de route... regorgent de données, mais elles ne peuvent être exploitées que par une intelligence disposant d'éléments de contexte. Un effort particulier est nécessaire pour extraire des données structurées utiles pour une machine à partir d'information utile pour un homme.

Post suivant : Comment produire des données utiles pour une machine ?

Comment produire des données utiles pour une machine ?

Cet article fait partie d'une série.

Les machines excellent dans l'exécution d'opérations répétitives sur des données. Pour cela il convient de fournir des données sur un support lisible par la machine et dans un format compréhensible. Ces formats et ces supports sont multiples et de plus en plus interopérables. Mais, quelque soit le format ou le support, les données utilisables par une machine se présentent sous forme de valeurs rassemblées dans des listes (par exemple la liste de tous les arrêts d'un réseau). certaines listes permettent de décrire des relations entre des valeurs (par exemple une liste des horaires attachés à un identifiant d'arrêt).

Les "bases de données" sont essentiellement, des ensembles de listes liées par des relations. Ces listes sont classiquement appelées tables.

Dans de domaine du transport public on trouve classiquement de nombreuses bases de données pour décrire le réseau, la circulation des véhicules, les rotations des personnels... Ces bases contiennent des tables : la liste des arrêts, la liste de lignes, la liste de modes exploités, les listes de jours pour lesquels les offres de transport sont identiques....

La mise à disposition de ces fichiers et des documents décrivant leur organisation et les interdépendances entre les tables permet d'utiliser ces données sur d'autres machines et éventuellement pour d'autres besoins.

Post suivant : Echanger des données : Fichiers, XML, API et WebServices

Echanger des données : Fichiers, XML, API et WebServices

Cet article fait partie d'une série.

Ouvrir les données c'est les proposer en partage pour que d'autres les utilisent. La question des modalités d'échange des données est cruciale et le développement d'internet permet d'envisager plusieurs solution.

Il est, tout d'abord, possible de mettre simplement à disposition les tables de données et les éléments de documentation évoqués précédemment. On peut parler alors de "raw data" au sens où l'entend Tim Berners-Lee dans son fameux "we want raw data now !".

Pour faciliter les échanges de données, les fichiers XML constituent une alternative intéressante. Tous les fichiers xml sont conformes à une syntaxe normalisée par le W3C. Un fichier xml peut être utilisé pour présenter les données relative à un objet donné. Le fichier décrit à la fois des valeurs et les relations entre les valeurs.

On peut, donc, représenter l'ensemble du contenu d'une base de données sous forme de fichier xml. Le résultat est beaucoup plus volumineux mais aussi plus universel que la base en elle même.

Les fichiers XML sont faciles à interpréter pour les développeurs et pour les applications qu'ils réalisent. La facilité de l'interprétation de ces fichiers et le caractère universel de la syntaxe font d'xml un format courant pour les échanges entre machines via Internet. Une grande partie des "web services" et des API correspondent à des échanges de fichiers XML.

Les API sont une notion vaste qui englobe la notion de web service.

Une API est un dispositif appartenant à un programme et permettant dans un contexte technique donné, de solliciter automatiquement ce programme pour obtenir une action ou une réponse. C'est, comme son nom l'indique, une interface d'application utilisable par un programme.

Un web service est une API accessible via internet. Un web service permet à un ordinateur d'en interroger un autre via internet et d'utiliser la réponse dans le cadre de ses propres application.

Le développement du WEB suscite la création de nombreux web services. Un des plus visible est le web service de cartographie de google qui permet à n'importe quel site internet de présenter des éléments de cartographie. La cartographie est produite par un serveur Google, mais présentée par un serveur tiers. Autre exemple, Orange propose un catalogue API permettant, notamment, d'envoyer des SMS, et certains sites d'information sur les transports publics proposent des API de calcul d'itinéraire (comme le site Destineo de la région des Pays de la Loire qui alimente le site de la TAN à Nantes).

Données brutes en "fichier" (xml ou pas) et Web Service constituent deux façons de publier vos données. Beaucoup d'acteurs industriels (Google, Facebook...) proposent une ouverture par web service. Même si les coûts sont plus élevés, cette mise à disposition de web service permet :

  • un contrôle fin des accès, leur restriction éventuelle par exemple dans le cas d'un accès payant,
  • un suivi très complet de l'usage qui est fait du service puisque chaque utilisation se traduit par un requête visible par le serveur d'origine.
  • la garantie que l'ensemble des sites clients utilisent la "même version des données". Ce qui peut être important notamment lorsque les données évoluent souvent.
En revanche, beaucoup de développeurs préfèrent,au moins comme une alternative, avoir la capacité de disposer des fichiers comportant l'ensemble des données. Cela évite, notamment, toute dépendance vis-à-vis de l'éditeur des données.

Post suivant : Open data et Linked data : une donnée peut elle être libre et liée à la fois ?

Open data et Linked data : une donnée peut elle être libre et liée à la fois ?

Cet article est le dernier d'une série de 4 articles sur la notion de donnée.

Les d'outils collaboratifs comme Wikipedia et le web en général, mettent à disposition du public une quantité d'information considérable qu'il est tentant de vouloir exploiter pour ses propres applications. Malheureusement, il s'agit plus souvent d'information que de données directement exploitable par une machine. Comment extraire des données utiles de ce tas d'information ?

C'est l'un des objectifs des données liées ou "linked data".

Il s'agit simplement d'associer à chaque "objet réel", une adresse Internet (dite URI). Cette adresse doit permettre d'accéder à des informations complémentaires sur cet "objet" et notamment un certains nombre de relation avec d'autres URI.

Par exemple le mot Versailles peut faire référence à plusieurs objets. En revanche, Versailles associé à cet URI est beaucoup moins ambigu. L'URI permet d'accéder à de nombreuses informations complémentaires relatives à la géographie, à la population, ou à certains personnages célèbres liés à Versailles.

Vous pouvez notamment découvrir ce que Ferdinand et Nicolas ont en commun d'après Wikipedia.

A vous d'extrapoler le concept à des objets comme la "gare Montparnasse", le "train" de "18.17" et à la "ligne 2" direction "Jean Jaures" !

4 articles sur la notion de "donnée" et d'ouverture des données

Je vous propose une série d'articles pour préciser certaines notions clés pour la mise en oeuvre de projets d'ouverture des données. Ils sont illustrés par des exemples liés au domaine du transport public.

Information pour les hommes et données pour les machines ? porte sur la différence entre l'information et les données sous jacente.

Comment produire des données utiles pour une machine ? traite des méthodes permettant de présenter des données.

Echanger des données : Fichiers, XML, API et WebServices décrit quelques modalités d'échange de machine à machine et évoque l'importante différence entre mettre à disposition des fichiers et ouvrir un web service.

Open data et Linked data : une donnée peut elle être libre et liée à la fois ? Porte sur le concept de Linked Data.

Les 4 articles peuvent être lus séparément, mais ils s'enchainent aussi dans un ordre logique allant du plus général au plus détaillé. Si vous le lisez jusqu'au bout, en prime, vous apprendrez qu'il existe un point commun entre Anelka et Ferdinand de Lesseps !

Cet article vous a plu ? recevez les suivants par mail :

Waze le jeu au service l'infomobilité

Waze est une application mobile (Android, iPhone et Blackberry pour l'instant) qui propose des cartes temps réel et de l'information trafic collaborative. Je vous encourage à l'utiliser car elle est utile, mais aussi très intéressante sur le plan de la conception. Voici une petite vidéo d'introduction :



Elle intègre des fonctions complexes, mais elle reste extrêmement simple à utiliser. En effet les fonctions avancées  sont discrètes et ne polluent pas l'expérience de l'utilisateur néophyte.

Les fonctions sociales : messagerie entre les utilisateurs, profils personnalisés... et les fonctions ludiques : collecte de petits trophées, points gagnés lors du passage sur des routes peu fréquentées... sont addictives.

Je ne suis pas très joueur moi même, mais l'utilisation des mécanismes du jeux pour améliorer l'efficacité des applications est un sujet qui me fascine. Pour waze, c'est une recette qui fonctionne puisque le nombre d'utilisateurs grimpe en flêche et que l'efficacité de l'application est largement commentée sur le web et sur iStore. Cette application n'a finalement qu'un seul défaut... Elle encourage à l'utilisation de la voiture et ne dit rien sur les transports publics ou les modes doux !

Des applications comme Booyah, Foursquare and Gowalla associent aussi jeux et géolocalisation. Je n'ai pas eu le temps de les expérimenter toutes, mais Foursquare, par exemple, m'amuse moins que Waze !

Pour ceux qui cherchent des sources plus anciennes, je vous propose deux liens  : un article sur les mécanismes du jeu et un autre sur le jeux et le crowdsourcing.

Mobilimousin : site internet et téléconseillers pour se déplacer en Limousin

Ca y est, Mobilimousin est ouvert au public.

Il s'agit du nouveau service d’information sur les transports publics de la région Limousin qui associe la région, les départements de la Corrèze, de la Creuse et de la Haute-Vienne, la Communauté d’Agglomération de Limoges Métropole, la Communauté d’Agglomération de Brive, la Ville de Tulle et la SNCF.

Outre les services disponibles sur mobilimousin.fr : calcul d'itinéraires, fiches horaires, plans..., un centre d'appel est disponible et des téléconseillers spécialisés peuvent vous aider à préparer vos déplacements en transport public.

Le site internet et les services associés sont dûs à Canal TP  ce qui n'est, évidemment, pas pour me déplaire ! et la prochaine centrale régionale d'information multimodale que nous ouvrirons sera bretonne.

Data.gov : première évaluation de la directive Open Government

La Maison Blanche vient de publier un premier rapport d'évaluation de la directive Open Government prise par l'administration Obama fin 2009. La publication des données publiques est le premier article de cette directive (que je ne résiste pas au plaisir de vous présenter ci-dessous).
Open Government Directive
View more documents from White House.

Le rapport est assez bon comme l'indique ce tableau de bord.On notera que le ministère des transports remplie de façon satisfaisante l'ensemble des critères.
Certains ici ou notent qu'il s'agit d'une auto-évaluation, peut être complaisante et qu'il reste du chemin à parcourir... Bref le verre serait à demi vide.
D'autres notent que la dynamique est lancée et que l'objectif est maintenant de mobiliser les contributions et les projets d'utilisation de ces données.
Cela montre qu'une fois les réticences à l'ouverture des données dépassées, l'enjeu se déplace rapidement vers l'animation de la communauté des utilisateurs. Via O'Reilly.
Il ne suffit pas d'ouvrir les données pour susciter un intérêt des utilisateurs potentiels, il faut faciliter les projets d'utilisation, documenter les données et rester à l'écoute des utilisateurs. Cela rejoint les conclusions du MassDot.
Cet article vous a plu ? recevez les suivants par mail :