Selon le baromètre LinkedIn pour « Le Monde Campus », les jeunes diplômés en data science sont les profils les plus recherchés par les recruteurs français présents sur le réseau social. Serge Abiteboul, chercheur à l’Institut national de recherche en informatique et en automatique (Inria), et coauteur de Terra Data (Editions Le Pommier, 348 p, 13 euros), plaidait en 2013 pour l’émergence d’une nouvelle filière de formation des « data scientist ».

En quoi la data science se distingue-t-elle de la statistique ?

La data science ce n’est pas juste de la statistique. Ce sont des techniques souvent très empiriques. Raison pour laquelle, pour atteindre un minimum de compréhension du métier, il faut aussi avoir été confronté à des vraies données dès les années de formation. Le risque de certaines formations actuelles, c’est qu’elles sont trop théoriques. Et puis, en informatique il y a vingt ans, il fallait savoir apprendre à concevoir de gros programmes, très pointus. Aujourd’hui, les data scientists écrivent finalement assez peu de code : ils utilisent de boîtes à outils souvent open source. Ils sont peut-être moins bons « codeurs », mais on leur demande de savoir choisir et composer les bons logiciels, de comprendre les mathématiques et l’environnement métier. C’est un métier qui demande énormément de neurones.

Vous avez rendu un rapport en décembre 2014 où vous écriviez que la France était menacée de pénurie de profils de data scientist. Où en sommes-nous aujourd’hui ?

Il y a toujours un immense appel d’air. Les technologies d’analyse de données massives utilisant des grappes d’ordinateurs étaient à leur début limitées à des entreprises du Web comme Google et Facebook. Désormais, tous les industriels veulent leur part du gâteau. Pour cela, ils ont besoin de jeunes diplômés formés à l’informatique avec une solide base en mathématiques. Aux Etats-Unis, la référence c’est le doctorat en informatique ou en maths appliquées. En France, on se contente encore trop du niveau bac + 5, alors que l’on s’exporte bien mieux avec un doctorat qu’avec un master.

Les data scientist doivent-ils avoir une connaissance du cœur de métier dans lequel ils exercent ?

Certaines entreprises françaises comme Critéo choisissent d’avoir des équipes mixtes. D’autres essaient de trouver des personnes qui maîtrisent ces différentes facettes. Je ne pense pas qu’un data scientist qui travaille, par exemple, sur des données de type sociologique, ait besoin d’être sociologue. En revanche, il ne peut pas ignorer la sociologie. Il lui faudra avoir de bonnes intuitions personnelles et être ouvert aux autres disciplines.

Comment les former à avoir une approche éthique de l’exploitation des données ?

La question de la responsabilité des algorithmes se pose en permanence. A titre d’exemple, c’est un algorithme qui décide de l’orientation de nos enfants dans le supérieur (APB) et c’est celui du moteur de recherche de Google qui hiérarchise l’information à laquelle nous avons accès. Les informaticiens sont en première ligne et ils doivent participer aux réflexions qui sont éminemment politiques. Il faut donc se méfier de l’approche « Bisounours » qui consiste à penser que tout sera résolu avec les progrès technologiques, tout autant que de l’approche catastrophiste qui consiste à penser que les nouvelles technologies détruisent le monde et que par exemple, nos données privées sont pillées. L’idéal serait d’éduquer les enfants dès leur plus jeune âge à l’informatique, dans toutes ses dimensions.