Octobre 2012, c’est officiel, la Harvard Business Review déclare que Data Scientist est le
métier le plus sexy du XXIème siècle ! :)
Cette date n’est pas un hasard quand on regarde l’histoire de l’Intelligence Artificielle.
Qu'est ce qu'un Data Scientist ?
Je me souviens quand j’ai commencé à travailler sur le recrutement de Data Scientists en
France en 2016, il était encore très difficile de trouver des Data Scientists expérimentés (ne
serait-ce que quelques années d’expérience). Et j’ai alors observé une recrudescence des
formations dans le domaine.
A l’origine, on définissait le Data Scientist comme un poste à 3 casquettes :
- Mathématiques i.e. modélisation et Machine Learning
- Informatique i.e. développement et implémentation des modèles
- Métier i.e. compréhension des besoins métiers pour y apporter une solution
Donc dans un monde idéal, et de manière très synthétique :
Le Data Scientist échange avec une personne du métier (ex : marketing), il analyse le besoin (ex: réduire le churn)
Il étudie les données disponibles (âge du client, localisation…), et il met au point un modèle prédictif basé sur le Machine Learning, qui va permettre d’anticiper le churn et mettre au point des actions correctives
Il implémente ce modèle prédictif sous forme d’un produit logiciel, de manière à ce que l’utilisateur final (la direction marketing) puisse l’utiliser sans connaitre les détails du modèle mathématique qui est derrière
Les évolutions du métier de Data Scientist
J’ai remarqué qu’il y a souvent deux (voire une) des trois casquettes qui a l’ascendant sur
l’autre (ou les autres). Et cela a conduit à l’échec de certains Data Labs, où les Data Scientists
partaient plutôt de l’algorithme que du besoin métier (je caricature un peu bien sûr).
De plus, il n’est pas rare d’entendre que certains Data Scientists préfèrent la partie modélisation à la
partie implémentation et mise en production (ce n’est pas toujours le cas évidemment).
D’où l’émergence de rôles plus spécialisés : les « Data Translators » ou Data Product
Managers sur la partie métier, et les Data Engineers ou Machine Learning Engineers sur la
partie informatique.
Et l’autre tendance que j’ai observée ces dernières années est une importance accrue d’avoir
une thèse (PhD) pour pouvoir prétendre à un poste Data Scientist dans certaines équipes.
A ce titre voici un article très intéressant de Vincent Granville sur les avantages et
inconvénients d’avoir une thèse pour une carrière dans la Data Science :
On voit donc qu’il existe quelques zones grises dans la définition du métier de Data Scientist,
ceci dit pour conclure je dirais qu’il y a un dénominateur commun : un (très) bon niveau en
mathématiques !
Là encore j’ai vu différents cas de figure : il existe des postes de Data Scientist où une
compréhension poussée des modèles est nécessaire, d’autres qui sont spécialisés sur un type
de donnée en particulier (computer vision, NLP…), et enfin certains où il n’est pas
indispensable d’avoir une compréhension très fine de la partie mathématiques.
D’où l’importance de se poser les bonnes questions quand on ouvre un poste de Data
Scientist : quel est le problème que cette personne va résoudre ? Qu’est-ce qui est
indispensable pour cela, pourquoi et comment je l’évalue ?
Et voici quelques exemples de dimensions à évaluer : Machine Learning supervisé, Machine
Learning non supervisé, statistiques, Deep Learning, Dataviz (data visualisation)…
Mais c’est encore un autre sujet, qui pourra faire l’objet d’un autre article :)
Comments