Quatre outils simples pour travailler sur les données

Qu'il s'agisse d'Open Data ou de Big Data, les données sont à la mode. Plutôt que d'en parler, pourquoi ne pas voir ce vous pouvez en faire vous même ? Voici quatre outils simples que je vous propose pour organiser, redresser et visualiser vos données.

Si Google SpreadSheet, ou Excel sont bien connus et assez pratiques, Google Refine mérite le détour. Pour une fois chez Google, il s'agit d'un "vrai logiciel" qui tourne sur votre PC, pas dans "les nuages". C'est une sorte de super tableur qui permet de corriger de grands fichiers contenant des données de mauvaises qualités comme par exemple une liste de 10 000 adresses clients dans laquelle le pays est parfois France, parfois Fr ou fr ou FRA, ou République française... Refine permet aussi d'interroger des "web services" ou d'aller récupérer les informations qui vous manquent sur un site Internet.

Google Fusion Table : est un autre outil proposé par Google qui complète bien Refine. Tout d'abord, celui-ci est hébergé, vos données quittent votre disque dur et elles peuvent bénéficier des infrastructures puissantes de Google. L'affichage des données sur une carte "google maps", ou sous forme d'animation pour les séries temporelles est aisé. Le partage des données et la collaboration sont aussi facilités. Un moyen pour partager les travaux de vérification qui sont souvent très pénibles.C'est,par exemple, Fusion que j'avais utilisé ici pour analyser mes traces et construire la carte ci dessous...

Processing : est à la fois un langage (simple mais puissant), un outil de programmation (open source) et une communauté (active) dédiés à la visualisation... L'objectif n'est pas de traiter de gros volume de données, mais de proposer des représentations interactives de vos résultats. Un bon exemple d'application dans le domaine du transport public est donné par Xiaoji Chen et ses "cartes isogreeniques" de Paris (voir aussi bien d'autres réalisations spectaculaires sur son blog ).


Gephi : c'est un outil dédié à la représentation de "graphes", c'est à dire de données mettant en jeux des "sommets" et des "relations" entre ces sommets. Il est idéal pour représenter des réseaux sociaux par exemple, comme sur cette vidéo qui présentent les messages échangés sur Twitter lors des manifestations en Egyspte. Chaque "point" représente un message, les liens sont des messages qui  sont re-twittés puis re-re-twittés par différents utilisateurs...

Aucun commentaire: