19 nov. 20212 min de lecture

Le métier de Data Scientist

Dernière mise à jour : 1 déc. 2021

Octobre 2012, c’est officiel, la Harvard Business Review déclare que Data Scientist est le

métier le plus sexy du XXIème siècle ! :)

Cette date n’est pas un hasard quand on regarde l’histoire de l’Intelligence Artificielle.

Qu'est ce qu'un Data Scientist ?

Je me souviens quand j’ai commencé à travailler sur le recrutement de Data Scientists en

France en 2016, il était encore très difficile de trouver des Data Scientists expérimentés (ne

serait-ce que quelques années d’expérience). Et j’ai alors observé une recrudescence des

formations dans le domaine.

A l’origine, on définissait le Data Scientist comme un poste à 3 casquettes :

- Mathématiques i.e. modélisation et Machine Learning

- Informatique i.e. développement et implémentation des modèles

- Métier i.e. compréhension des besoins métiers pour y apporter une solution

Donc dans un monde idéal, et de manière très synthétique :

Le Data Scientist échange avec une personne du métier (ex : marketing), il analyse le besoin (ex: réduire le churn)
Il étudie les données disponibles (âge du client, localisation…), et il met au point un modèle prédictif basé sur le Machine Learning, qui va permettre d’anticiper le churn et mettre au point des actions correctives
Il implémente ce modèle prédictif sous forme d’un produit logiciel, de manière à ce que l’utilisateur final (la direction marketing) puisse l’utiliser sans connaitre les détails du modèle mathématique qui est derrière

J’ai remarqué qu’il y a souvent deux (voire une) des trois casquettes qui a l’ascendant sur

l’autre (ou les autres). Et cela a conduit à l’échec de certains Data Labs, où les Data Scientists

partaient plutôt de l’algorithme que du besoin métier (je caricature un peu bien sûr).

De plus, il n’est pas rare d’entendre que certains Data Scientists préfèrent la partie modélisation à la

partie implémentation et mise en production (ce n’est pas toujours le cas évidemment).

D’où l’émergence de rôles plus spécialisés : les « Data Translators » ou Data Product

Managers sur la partie métier, et les Data Engineers ou Machine Learning Engineers sur la

partie informatique.

Et l’autre tendance que j’ai observée ces dernières années est une importance accrue d’avoir

une thèse (PhD) pour pouvoir prétendre à un poste Data Scientist dans certaines équipes.

A ce titre voici un article très intéressant de Vincent Granville sur les avantages et

inconvénients d’avoir une thèse pour une carrière dans la Data Science :

On voit donc qu’il existe quelques zones grises dans la définition du métier de Data Scientist,

ceci dit pour conclure je dirais qu’il y a un dénominateur commun : un (très) bon niveau en

mathématiques !

Là encore j’ai vu différents cas de figure : il existe des postes de Data Scientist où une

compréhension poussée des modèles est nécessaire, d’autres qui sont spécialisés sur un type

de donnée en particulier (computer vision, NLP…), et enfin certains où il n’est pas

indispensable d’avoir une compréhension très fine de la partie mathématiques.

D’où l’importance de se poser les bonnes questions quand on ouvre un poste de Data

Scientist : quel est le problème que cette personne va résoudre ? Qu’est-ce qui est

indispensable pour cela, pourquoi et comment je l’évalue ?

Et voici quelques exemples de dimensions à évaluer : Machine Learning supervisé, Machine

Learning non supervisé, statistiques, Deep Learning, Dataviz (data visualisation)…

Mais c’est encore un autre sujet, qui pourra faire l’objet d’un autre article :)