Ma formation data analyst #1 : SQL, Pandas, Plotly… et le confinement

La formation, je connaissais bien pour avoir été responsable pédagogique pendant plusieurs années à l’ESJ PRO. Mais depuis mi septembre, je suis passée de l’autre côté. Côté stagiaire. Côté apprenant. Après six semaines ou presque à l’école, la formation se déroule à distance depuis ce lundi, confinement oblige. Comment ça se passe depuis le début ? Qu’ai-je appris ? Quelles sont les difficultés de se remettre à apprendre des langages informatiques 7h par jour quand on a plus de 40 piges ? Partage de mon expérience à un tiers du parcours.

Maëlle Fouquenet
8 min readNov 6, 2020

« Formation ouverte à tous les niveaux, forte motivation nécessaire » disait le site. Il y a sept semaines, je démarrais ma formation de Data analyst à la Wild Code School à Nantes. Une formation de cinq mois intensifs (vingt semaines), suivis de quatre mois de stage. Et je confirme, c’est intense… Et passionnant !

La découverte de nouveaux langages (Python, Numpy et Pandas, SQL, Matplotib, Seaborn, Plotly) se révèle extrêmement enrichissante. Si au début de la formation, les liens n’étaient pas concrets entre Python et bases de données, j’arrive au stade où les apprentissages se relient les uns aux autres, et surtout je vois les utilisations possibles avec les données (merci Pandas). Mieux, je pratique en permanence à travers des quêtes et les projets collectifs.

Les projets de groupe, coup de boost pour l’apprentissage

Premier projet : la création d’un dashbord > outils : SQL et tableur

Le premier projet de groupe simulait une demande de dashboard pour un chef d’entreprise, avec un travail de requêtes en SQL sur des bases de données et utilisation d’un tableur.

Ce travail m’a donné un énorme coup d’accélérateur en terme de compétences et de mise en pratique de SQL en peu de temps, nécessitant d’aller bien au delà des apprentissages déjà vus. J’ai été très contente de constater que nous avons réussi plutôt aisément à trouver des solutions par nous-mêmes.

Deuxième projet : le changement climatique > outils : Pandas, Seaborn, Plotly

Depuis la semaine dernière, nous sommes passé à un niveau supérieur en terme de compétences. Ce deuxième projet de groupe (quatre personnes), sur le thème du changement climatique, m’a permis d’aller à la chasse aux bases de données avec efficacité (je me suis appuyée sur mon expérience de journaliste et de mon goût de la fouille). A nous quatre, nous avons trouvé plus d’une quinzaine de bases de données.

Nous nous sommes ensuite réparti l’ouverture de ces bases pour vérifier ce qu’elles contenaient, si les données étaient intéressantes, fiables (crédibilité de la source), utilisables. Nous avons aussi regardé quelles étaient leurs périodes temporelles pour savoir si nous aurions assez de recul dans le temps, si les périodes étaient similaires pour d’éventuelles comparaisons/mises en relation.

L’étape suivante a été de sélectionner les bases sur lesquelles nous allions travaillé afin de n’en garder qu’une sur chaque thème s’il y en avait plusieurs (comme c’est le cas pour les températures).

Premiers graphs rapides pour avoir un aperçu du contenu des bases dont la heatmap de corrélation.

Puis il a fallu nettoyer, parfois “merger” ou concaténer, traiter l’absence de valeurs quand c’était le cas. Nous avons aussi au besoin découpé les bases pour ne conserver que des colonnes et/ou des lignes qui nous intéressaient. Concrètement la base mondiale des catastrophes contient les catastrophes naturelles et technologiques. J’ai conservé uniquement les catastrophes naturelles, de type climatiques, hydrologiques et météorologiques. Tout cela s’est fait avec Pandas.

Enfin, dernière étape : la mise en forme graphiquement des données, en utilisant principalement Seaborn et Plotly. Le but là est de trouver des formes graphiques pertinentes par rapport au propos et qui permettent de rendre compréhensible les données. Cerise sur le gateau, nous avons intégré des projections à 2050 sur un certain nombre d’indicateurs. Le tout a été présenté cet après-midi à l’oral à l’ensemble des autres stagiaires data et développeurs, via visioconférence Google Meet et un support Prezi.

Autonomie et entraide pour progresser

La pédagogie de la Wild Code School, comme d’autres centres de formation pour le développement web, repose sur un travail autonome des stagiaires, notamment à travers les quêtes (des séries d’exercices pour lesquels il faut se documenter, regarder des tutos…). L’entraide est également un pilier important pour avancer. Enfin, les moments d’apprentissage collectifs à travers les live coding ou des dojo permettent de (re)poser des bases, échanger collectivement.

Le groupe vit bien (veille de départ en confinement).

Le dojo, si vous ne connaissez pas, est un exercice en petit groupe avec un objectif de réalisation simple. Chacun code tour à tour : l’un code pendant que son voisin a le droit de parler et échanger pendant une minute (la durée peut varier). Puis on décale d’un cran et celui-celle qui parlait se met à coder et une troisième personne parle. La difficulté n’est pas forcément dans le problème à résoudre mais surtout dans la capacité à comprendre ce que l’autre a fait ou avait l’intention de faire.

N’étant pas très confiante dans ma façon d’aborder les problèmes (les fameux “je suis nulle en maths” et “la logique c’est pas mon truc” reviennent très vite), je n’ai pas franchement apprécié le dojo au premier test, mais finalement j’y ai pris goût au troisième ou quatrième exercice (dommage qu’on arrête, mais ça prend beaucoup de temps). L’intérêt du dojo est aussi de saisir que le code est divers et que les solutions à un même problème sont multiples.

Une formation intense et riche

Au départ de ce billet, j’écrivais que la formation est intense, elle est également exigeante. Ma plus grande difficulté reste de maîtriser les fameuses boucles en Python. Les index, les valeurs, les boucles dans les boucles… Je commence à y voir plus clair mais les moments de flottements sont encore nombreux. Exigeante par le niveau, la formation l’est aussi par le rythme soutenu. Les semaines passent vite, la quantité d’informations à comprendre, retenir et assimiler est grande.

L’excitation intellectuelle de la découverte

Aux exercices hebdomadaires se superposent les projets de groupe (qui se déroulent sur trois semaines avec des moments dédiés chaque jour), la rétrospective du vendredi après midi (sorte de débrief de la semaine écoulée), sans oublier les stand up quotidiens le matin (dont un en anglais par semaine) et les intervenant-es extérieur-es :

  • Marianne Allanic, consultante en transformation numérique spécialisée IA et santé, a évoqué ses projets data en santé, types de données recueillies, panel, durée d’études, anonymisation des données, création d’algorithmes de traitement des données, collaboration avec des entreprises tiers. Il a aussi été question de son rôle de cheffe de projet, de coordination, d’intermédiaire entre médecins et développeurs (et j’ai trouvé là des similitudes avec mon expérience de cheffe de projet entre éditeurs et agence web).
  • Pierre Slamich, cofondateur d’OpenFoodFacts, a retracé l’histoire de la plateforme collaborative, les difficultés et les enjeux de l’open data.
  • Maxime Bureau, manager associé chez Accenture, a lui détaillé comment il utilise la méthode Agile dans la gestion de ses projets.

Tous ces moments apportent des connaissances et des compréhensions complémentaires de ce que sera (peut-être) mon futur métier.

Le plaisir d’apprendre à nouveau rend la formation très attrayante, et la dynamique de groupe assure une bonne ambiance de travail (car groupe de douze stagiaires, ni trop petit ni trop grand). Ça parait un peu naïf mais la bienveillance des uns envers les autres est très appréciable.

Les outils pendant le confinement

Le passage en distanciel, on l’a déjà vécu une semaine quand une des stagiaires a eu le covid. Les outils sont en place (la promo précédente a suivi une grande partie de sa formation à distance) :

  • Slack sert d’ossature pour la communication “officielle” et formelle, avec un canal pour la promo data, des messages en privés, et un canal en commun avec les développeurs en formation également à la Wild Code School de Nantes.
  • La plateforme pédagogique Odyssey regroupe les quêtes, les liens vers les ressources, l’agenda, les corrections, les membres de chaque promo et des autres sites, etc.
  • Discord permet de conserver une ambiance plus informelle et la discussion avec quatre salles dans lesquelles on peut se réunir pour évoquer un point précis, travailler à plusieurs sur un exercice ou simplement “papoter”. La résolution des exercices à plusieurs sur Discord se révèle bien plus agréable et efficace que je ne l’avais imaginé au départ.
Capture d’écran du dashboard côté élève de la plateforme pédagogique Odyssey de la Wild Code School

La perte de la communication informelle…

Ce sera malgré tout très différent que notre semaine à la maison car ce confinement s’annonce beaucoup plus long. D’expérience (de formatrice et de stagiaire), je sais qu’en présentiel, on capte une conversation par hasard, on se rend compte qu’on est bloqué au même endroit et hop, on se met à réfléchir ensemble. On demande facilement deux minutes à une personne à côté de soi. On comprend également toute la communication non verbale (les attitudes, les mouvements du visage, le regard), dont une grande partie est absente pendant ce confinement.

…et du lancer de Chocobon

Ma crainte réside dans le fait d’avoir du mal à garder ce contact et la possibilité de rester au niveau du groupe au fil des semaines de confinement. Et puis, se lancer une vanne ou un Chocobon par visio, c’est tout de même moins facile. Cela dit, la visio permet de voir les visages démasqués de mes camarades.

Septième semaine de formation achevée, j’ai le sentiment d’avoir appris une tonne de choses, d’avoir rencontré des gens très différents, aux motivations variées, avec qui se noue une relation d’échange et de partage. C’est intense, la journée est souvent trop courte, mais le chemin s’éclaircit chaque jour un peu plus. Je sens que ces vingt semaines passent à la vitesse de la lumière.

A lire aussi :
Ma formation data analyst #2 : j’ai attaqué le Machine Learning !

Edit : 6/11/2020, 23:53 : j’ai détaillé plus précisément le travail fourni pour le projet collectif sur le changement climatique

--

--

Maëlle Fouquenet

Journaliste en formation/reconversion data analyst, ex responsable numérique @ESJPRO. Algo, transparence, audio, ❤#Berlin, #Nantes, #freediving et #lindyhop