J'ai testé deux MOOC sur Big Data et Machine Learning

Je n'ai pas été très présent sur Transid ces derniers temps pour cause de MOOC [Massive Online Open Course, en français : Formation en ligne ouverte à tous... bref des cours en ligne]. 

Je me suis en effet inscrit d'une part :

J'avais aussi tenté, il y a quelques mois, de suivre le CS 109 Data Science de Harvard, mais j'avais "calé" à la moitié. Il s'agit en effet d'un ensemble de ressources (tout à fait remarquables) disponibles en ligne : conférences, exercices... mais sans aucune contraintes de réalisation, ni d'évaluation. Cette approche type "candidat libre" n'a pas entretenu ma motivation. Les deux cours dont je vous parle aujourd'hui nécessite de s'inscrire (mais sont gratuits) et de respecter le calendrier des cours et des évaluations.

Coursera est l'une des principales plateformes mondiales aux côtés de edX et de Udacity. Le cours "Machine Learning", proposé par Andrew Ng, un des fondateurs de Coursera, est en quelque sorte un "produit d'appel" pour Coursera. Il a déjà été suivi par plus de 100 000 élèves. C'est un produit bien rodé. 

Le cours est composé de 18 leçons sur 10 semaines. Chaque leçon est composée d'une demi douzaine de vidéos d'une dizaine de minutes chacune et d'un support de cours sous forme de transparents. Les vidéos peuvent être visualisées "en accéléré", ce qui peut vous faire gagner du temps (tout en faisant progresser votre anglais !). Elles contiennent une ou deux "questions à choix multiples" intégrées dans la vidéo, ce qui a le mérite de vous obliger à soutenir votre attention.

Après le cours, un QCM et des exercices de programmation permettent de vous évaluer. Les exercices sont accompagnés d'un "poly" et constituent un excellent complément au cours. L'ensemble permet d'aboutir à des résultats vraiment étonnants comme la réalisation d'un réseau de neurones permettant de la reconnaissance de caractères manuscrits. Cela m'a permis de couvrir les notions de régression linéaires et logistique, les réseaux de neurones, les algorithmes SVM (Support Vector Machines) et de clustering (k-means), les systèmes de recommandations et de détections d'anomalies, plus quelques considérations sur les aspects techniques. Ni la technologie, ni les notions mathématiques ne sont particulièrement approfondies, mais les réalisations sont nombreuses et spectaculaires. 

Au total, ce cours m'a passionné et je vous le recommande si vous voulez aller un peu au delà du Buzz ambiant sur le Big Data et le Digital... La seule réserve concerne le langage de programmation utilisé : Octave, qui n'est pas très courant, mais qui permet une évaluation automatique des exercices.

France Université Numérique est une initiative publique, française et francophone. Le cours "les fondamentaux du Big Data" est proposé par plusieurs enseignants de Telecom Paris Tech est peut être suivi en préparation du Mastère Spécialisé « Big data : Gestion et analyse des données massives » ou d'autres formations du catalogue de Telecom Paris Tech. 

Il est composé de 7 leçons sur 7 semaines, avec conférences, support de cours et QCM d'évaluation, mais pas de solution d'évaluation de codes. Il est beaucoup plus théorique que Machine Learning et a eu le mérite de me remettre en tête les principales notions mathématiques sous-jacentes : algèbre, analyse, probabilités et statistiques. 

Une leçon portait sur les technologies. Il était intéressant, mais au global, les exemples d'applications et les exercices de mise en oeuvre sont trop limités. En particulier, l'absence d'outils pour évaluer les exercices de programmation est un gros handicap pour ce type de formation.

Je vous encourage à essayer les cours en ligne. Choisissez un sujet sur lequel vous êtes réellement motivés car le temps que vous devrez y consacrer n'est pas négligeable... En ce qui me concerne, les évaluations, le rythme imposé pour remettre les exercices d'évaluation et le sentiment d'appartenir à un groupe d'élèves tendus vers l’achèvement du MOOC, ont été les éléments motivant qui avaient manqué pour aller au bout du CS 109 d'Harvard. 

Si vous avez des recommandations  à me faire sur mes sujets de prédilections : le numérique et la mobilité urbaine, laissez moi un commentaire ou un tweet !

Je n'ai pas encore le résultat de Machine Learning, mais j'ai mon certificat pour "Big Data".


"Data Driven" un e-book sur la culture de la donnée

Je suis, de longue date, un "follower" de Hillary Mason data scientist, fondatrice des Fast Forward Labs. J'apprécie ses conférences et son blog et je me suis donc précipité sur son petit e-book gratuit, sur la culture de la donnée et les organisations "data driven". Le livre est co-écrit avec DJ Patil. et publié chez O'Reilly
Voici ce que j'en retiens et que cela nous vous dissuade pas de le lire vous même !

Après avoir rappelé que la technologie est toujours moins importante que les gens qui s'en servent, les auteurs reviennent sur la définition des data scientists. Ils combinent plusieurs compétences dans trois domaines :
  • maths et stats,
  • développement informatique et maîtrise d'un ou plusieurs langages, 
  • communication et capacité à donner à leur travaux un impact sur les opérations... 
Mais ils doivent surtout être bien intégrés dans le management de l'entreprise (je dirai dans le "métier"), pour disposer des bons éléments de contexte. Au niveau du comité de direction l'expertise sur les données est fournie par le chief data officer complémentaire du CIO et du CTO.

Après un chapitre sur ce qu'est une organisation "data driven", les auteurs abordent un point essentiel : l'accès à la donnée. 
Leur recommandation est claire : dans une organisation, chacun doit avoir accès à toute l'information disponible (dans les limites légales). Cette pratique me semble encore minoritaire en France, ou le "besoin d'en connaitre" reste prévalant. Bien entendu, l'accessibilité nécessite la diffusion de compétences et d'outils, y compris pour les fonctions traditionnellement les moins techniques de l'entreprise.

On passe ensuite en revue quelques points importants de méthode avant de s'intéresser à l'organisation et au process. Sur ce dernier sujet, un chapitre est consacré aux tableaux de bord et deux autres aux réunions d'analyses des données.

Le livre se conclue par deux chapitres, l'un sur les outils et l'autre sur la culture... Je vous laisse méditer cette citation :
"The secret of great data science is that the tools are almost irrelevant.", 
qui est, naturellement, nuancée dans le texte, mais qui a le mérite de dissiper la fascination qu'on peut avoir à propos des outils en particulier dans le domaine de la data....

iBeacon dans les transports

Une visite chez Milky, une agence d'innovation digitale qui expérimente notamment iBeacon m'a permis de me mettre à jour sur cette technologie. 

iBeacon, c'est, essentiellement :
  • Un format d'information émis par des balises Bluetooth Low Energy (BLE). Le coût des balises est faible (de l'ordre de 10€), leur portée paramétrable est d'une dizaine de mètres et et leur autonomie d'une dizaine de mois sur batterie L'information diffusée est "statique" et se limite, en gros, à un identifiant de la balise.
  • Une fonctionnalité de iOS qui permet des interactions : notification ou "réveil" d'une application, lorsque le mobile est suffisamment proche d'une balise.
Les applications sont nombreuses dans le domaine du marketing "mobile to mortar", visant à inciter les utilisateurs de mobiles à consommer dans des boutiques. Ces services reposent sur l'exploitation d'informations contextualisés grâce à l'identifiant de la balise. 
C'est intéressant, notamment parce que c'est beaucoup plus simple que des mécanismes existant de type "flashcode" ou cibles NFC, le geste client est beaucoup plus simple et la technologie BLE est présente sur la majorité des téléphones. 
La vidéo ci dessous donne quelques bons exemples de services :


Exemples pour les transports  : 
  • vous entrez dans un bus, un train, une gare et votre téléphone vous propose une notification qui vous donne accès aux prochains arrêts desservis ou les horaires des prochains trains au départ,
  • vous faites la queue devant un automate ou un guichet et on vous propose des solutions alternatives :autres guichets ou automates moins fréquentés, services en lignes...
  • vous oubliez votre bagage, dès que vous vous éloignez de plus de 10 mètres, votre téléphone vous alerte...
  • dans un souterrain ou un espace dans lequel le GPS ne fonctionne pas, les balises iBeacon peuvent vous permettre de vous localiser...    
J'ai pu poser quelques questions aux experts de Milky :
  • Cela fonctionne t il avec des téléphones Androïd ? Oui, Android peut aussi fonctionner avec toutes sortes de formats provenant de balises BLE. En revanche, les notifications sur iOS ne peuvent être déclenchées que par du iBeacon.Google propose d'ailleurs, sous le nom de physical web, un concept prometteur utilisant le BLE pour interfacer le "monde réel" et votre portable.Ce concept prend le contre pied de iBeacon sur les notifications.
  • Quid de la sécurité ? les signaux publics diffusés par iBeacon ne sont pas sécurisés. On peut donc les copier et les reproduire ailleurs (spoofing). Le résultat obtenu est que les applications peuvent être "trompées" par une fausse balise. Elle vont se réveiller ou proposer une notification dans un contexte qui n'est pas forcement celui imaginé au départ. On peut aussi imaginer que votre concurrent paramètre son application pour qu'elle se réveille à proximité de vos beacons. Par exemple pour proposer des services concurrents. Il existe déjà des "cartes" de iBeacon qui permettent de récupérer les informations nécessaires.
  • N'y a t il pas un risque lié à la protection de la vie privée ? Les apps lorsqu'elles se réveillent peuvent "pinger" le serveur avec l'identifiant du client et laisser une trace de son passage sans que cela ne corresponde à une action consciente de sa part. Avec la multiplication des balises,  et l'apparition probable d'opérateurs de iBeacon opérant pour plusieurs marques, il peut y avoir un risque...