J'ai testé deux MOOC sur Big Data et Machine Learning

Je n'ai pas été très présent sur Transid ces derniers temps pour cause de MOOC [Massive Online Open Course, en français : Formation en ligne ouverte à tous... bref des cours en ligne]. 

Je me suis en effet inscrit d'une part :

J'avais aussi tenté, il y a quelques mois, de suivre le CS 109 Data Science de Harvard, mais j'avais "calé" à la moitié. Il s'agit en effet d'un ensemble de ressources (tout à fait remarquables) disponibles en ligne : conférences, exercices... mais sans aucune contraintes de réalisation, ni d'évaluation. Cette approche type "candidat libre" n'a pas entretenu ma motivation. Les deux cours dont je vous parle aujourd'hui nécessite de s'inscrire (mais sont gratuits) et de respecter le calendrier des cours et des évaluations.

Coursera est l'une des principales plateformes mondiales aux côtés de edX et de Udacity. Le cours "Machine Learning", proposé par Andrew Ng, un des fondateurs de Coursera, est en quelque sorte un "produit d'appel" pour Coursera. Il a déjà été suivi par plus de 100 000 élèves. C'est un produit bien rodé. 

Le cours est composé de 18 leçons sur 10 semaines. Chaque leçon est composée d'une demi douzaine de vidéos d'une dizaine de minutes chacune et d'un support de cours sous forme de transparents. Les vidéos peuvent être visualisées "en accéléré", ce qui peut vous faire gagner du temps (tout en faisant progresser votre anglais !). Elles contiennent une ou deux "questions à choix multiples" intégrées dans la vidéo, ce qui a le mérite de vous obliger à soutenir votre attention.

Après le cours, un QCM et des exercices de programmation permettent de vous évaluer. Les exercices sont accompagnés d'un "poly" et constituent un excellent complément au cours. L'ensemble permet d'aboutir à des résultats vraiment étonnants comme la réalisation d'un réseau de neurones permettant de la reconnaissance de caractères manuscrits. Cela m'a permis de couvrir les notions de régression linéaires et logistique, les réseaux de neurones, les algorithmes SVM (Support Vector Machines) et de clustering (k-means), les systèmes de recommandations et de détections d'anomalies, plus quelques considérations sur les aspects techniques. Ni la technologie, ni les notions mathématiques ne sont particulièrement approfondies, mais les réalisations sont nombreuses et spectaculaires. 

Au total, ce cours m'a passionné et je vous le recommande si vous voulez aller un peu au delà du Buzz ambiant sur le Big Data et le Digital... La seule réserve concerne le langage de programmation utilisé : Octave, qui n'est pas très courant, mais qui permet une évaluation automatique des exercices.

France Université Numérique est une initiative publique, française et francophone. Le cours "les fondamentaux du Big Data" est proposé par plusieurs enseignants de Telecom Paris Tech est peut être suivi en préparation du Mastère Spécialisé « Big data : Gestion et analyse des données massives » ou d'autres formations du catalogue de Telecom Paris Tech. 

Il est composé de 7 leçons sur 7 semaines, avec conférences, support de cours et QCM d'évaluation, mais pas de solution d'évaluation de codes. Il est beaucoup plus théorique que Machine Learning et a eu le mérite de me remettre en tête les principales notions mathématiques sous-jacentes : algèbre, analyse, probabilités et statistiques. 

Une leçon portait sur les technologies. Il était intéressant, mais au global, les exemples d'applications et les exercices de mise en oeuvre sont trop limités. En particulier, l'absence d'outils pour évaluer les exercices de programmation est un gros handicap pour ce type de formation.

Je vous encourage à essayer les cours en ligne. Choisissez un sujet sur lequel vous êtes réellement motivés car le temps que vous devrez y consacrer n'est pas négligeable... En ce qui me concerne, les évaluations, le rythme imposé pour remettre les exercices d'évaluation et le sentiment d'appartenir à un groupe d'élèves tendus vers l’achèvement du MOOC, ont été les éléments motivant qui avaient manqué pour aller au bout du CS 109 d'Harvard. 

Si vous avez des recommandations  à me faire sur mes sujets de prédilections : le numérique et la mobilité urbaine, laissez moi un commentaire ou un tweet !

Je n'ai pas encore le résultat de Machine Learning, mais j'ai mon certificat pour "Big Data".


2 commentaires:

Guillaume a dit…

J'ai commencé le mooc de Standford qui semble très prometteur. J'ai un peu d'expérience dans le machine learning (clustering, recommender system) .
Tu dis que le mooc proposé par Télécom Paristech est plus théorique. Ce dernier est il plus difficile que celui de Standford d'après ton expérience?

Yann a dit…

La "difficulté" sera appréciée différemment. Si tu as un bon niveau en math, celui de Paris Tech sera probablement plus simple et terminé rapidement. Si tu n'as pas que quelques bases en math, celui de Stanford reste relativement abordable. La grosse différence est dans le fait que pour Stanford, il faut produire du code qui fonctionne... et que cela peut prendre du temps ! Bon courage !