La transparence des algorithmes en question
La transparence des algorithmes en question
Par Denis Delbecq
Les décisions des machines auto-apprenantes sont de plus en plus opaques, même pour leurs concepteurs.
DADO RUVIC / REUTERS
Quand j’entre le nom d’un collègue sur Google, il le trouve immédiatement. Quand je fais de même sur Qwant, j’obtiens des pages sur des footballeurs. » Cette expérience, relatée par Gilles Dowek, chercheur en informatique à Inria, « est d’abord la démonstration que Google collecte des données sur les internautes et les utilise dans son algorithme de classement des pages pour servir des résultats jugés plus conformes à leurs attentes ».
Données personnelles et algorithmes, le cocktail séduit ou inquiète, à en croire un sondage IFOP réalisé en 2017 pour la Commission nationale informatique et libertés (CNIL) : 64 % des Français estiment que les algorithmes représentent plutôt une menace en raison de l’accumulation de données personnelles, quand 51 % des 18-24 ans considèrent qu’ils sont une opportunité. Un algorithme est un calcul informatique qui s’appuie sur des données – personnelles ou pas – pour faire des prévisions ou prendre des décisions.
Par exemple, choisir l’affectation universitaire d’un bachelier, à l’image de la plate-forme Admission post-bac (APB) du ministère de l’éducation nationale. Elle avait provoqué une pagaille à l’été 2017, laissant plus de 80 000 étudiants sur le carreau. Pis, dans les filières très demandées, APB procédait par tirage au sort, lequel a été jugé illégal depuis par des tribunaux administratifs.
En août, la CNIL avait d’ailleurs mis en demeure l’Etat de « cesser de prendre des décisions concernant des personnes sur le seul fondement d’un algorithme et de faire preuve de plus de transparence ». Depuis, APB a cédé la place à Parcoursup, sur lequel la CNIL doit prochainement rendre un avis. Les algorithmes sont parfois coupables de discrimination. En 2016, l’ONG journalistique Pro Publica a montré que Compas, un logiciel très utilisé par les tribunaux américains, est affecté d’un biais racial : quand il annonce un risque élevé de récidive, il se trompe dans 45 % des cas pour les Afro-Américains et… 23 % pour les Blancs. « Il existe aussi des biais qui, par exemple, peuvent conduire à exclure des consommateurs de la possibilité d’achat auprès d’un commerçant en ligne, sur le simple critère de leur adresse, qui les associe à une zone de clients non solvables », prévient Yacine Si Abdallah, chargé de mission « éthique et numérique » à la CNIL.
Promesses de ristournes
De même, les promesses de ristournes de certains assureurs en l’échange d’une collecte (et d’un traitement) de données sur notre activité physique – captées par les montres connectées – ou sur notre style de conduite – avec des voitures volontairement équipées de « mouchards », comme le propose Allianz – pourraient induire à terme des discriminations, même si les entreprises s’en défendent.
Des risques d’autant plus inacceptables que les algorithmes ne sont pas toujours plus pertinents que les humains : une étude scientifique publiée en janvier 2018 dans la revue Science Advances montre que, en étudiant des dossiers criminels, quatre cents volontaires ont prédit correctement la récidive ou la non-récidive dans 63 % des cas, presque aussi bien que les 65 % du logiciel Compas. A l’inverse, un algorithme peut être un rempart contre l’arbitraire, estime Gilles Dowek : « Il peut éviter le favoritisme dans certaines décisions. Et, si on exige de lui une justification des choix et un respect de l’éthique, il peut rendre bien des processus plus vertueux. Mais cela suppose de la transparence. »
Secret industriel
Cette transparence – inscrite dans la loi République numérique de 2016 – n’est pas chose aisée face au secret industriel. Elle peut s’appuyer sur « la publication du code informatique, même si cela n’est pas toujours compatible avec les impératifs de confidentialité. Pour concilier transparence et secret, on peut publier une spécification du code, autrement dit ce que doit faire le programme, et non comment il le fait. De même, l’auteur d’un algorithme peut s’appuyer sur un tiers certificateur, comme cela se fait dans l’industrie aéronautique ». Pour Yacine Si Abdallah, le débat public animé par la CNIL a permis de constater qu’« entreprises et administrations n’obtiendront la confiance du public qu’en démontrant la loyauté de leurs outils vis-à-vis des individus et de la collectivité ».
Un objectif rendu plus ardu par l’essor de l’intelligence artificielle (IA). « Quand un algorithme repose sur l’apprentissage par la machine, même son créateur peut difficilement justifier le résultat. » La solution passera sans doute par un renforcement de la recherche en éthique numérique, une des propositions avancées par le mathématicien-député Cédric Villani, dans le rapport sur l’IA qu’il a présenté au gouvernement le 28 mars.
Ce supplément a été réalisé dans le cadre d’un partenariat avec le think tank Culture numérique.