Le 23 février, Jigsaw, une organisation appartenant à Google qui veut « rendre le monde plus sûr grâce aux technologies », annonçait la mise à disposition, en open source, d’une nouvelle intelligence artificielle. Celle-ci, baptisée « Perspective », avait été testée durant plusieurs mois au New York Times. Son objectif : aider à la modération des commentaires, en évaluant le degré de « toxicité » de ces derniers en fonction de mots-clés anglophones, avec une note allant de 1 à 100 %. Par exemple, « j’aime les chats » obtient un 2 % ; « les chats sont stupides », un bon 95 %.

Le degré de toxicité des messages est évalué en fonction de mots-clés. | Perspective / Google

L’outil de machine learning (en français, « apprentissage des machines »), était alors présenté comme plus rapide, et moins cher, qu’un modérateur humain, bien que le fondateur de Jigsaw, Jared Cohen, ait rappelé que « Perspective » n’avait pas pour vocation de les remplacer. Jigsaw rappelait que l’outil de modération le plus efficace consistait en une combinaison de son programme (pour faire un premier tri) et de l’action de modérateurs humains.

Seulement voilà, une étude, publiée le 27 février, vient sérieusement remettre en question l’efficacité du dispositif.

Un point fait chuter le score de 80 % à 13 %

Menée par plusieurs professeurs américains spécialisés dans le domaine de l’informatique, elle montre que des subterfuges des plus faciles peuvent permettre de détourner l’attention de l’intelligence artificielle. Ainsi, le simple ajout d’une ponctuation fait chuter le degré de toxicité d’un commentaire. Si « tous ceux qui ont voté pour Trump sont des crétins » a un score de 80 %, la même phrase, mais avec un point, « tous ceux qui ont voté pour Trump sont des cr.étins » la ramène à 13 %.

L’effet est le même à la moindre faute de frappe, ou lettre volontairement ajoutée dans le mot. De 89 % avec un « c’est stupide et faux », on arrive ainsi à 17 % avec « c’est stuipde et faux ».

Un point, et le commentaire apparaît moins toxique aux yeux de l’IA. | Department of Electrical Engineering, University of Washington, Seattle, WA

Autre constat, présent dans cette étude : certains commentaires seraient parfois qualifiés de très toxiques par Perspective, alors qu’ils ne le sont en réalité pas. Et pour cause : l’intelligence artificielle repère des mots-clés, mais a visiblement du mal à identifier les négations, et donc, déterminer le sens ou l’intention cachés derrière la phrase en question.

Dire « ils sont stupides et ignorants et sans classe » est évalué à 91 %, dire qu’« ils ne sont pas stupides et ignorants et sans classe », à 84 %, soit une maigre différence.

L’intelligence artificielle ne prend que peu en compte les négations. | Department of Electrical Engineering, University of Washington, Seattle, WA

En cause ici, les critères de l’intelligence artificielle, qui fonctionne, comme expliqué plus haut, à partir de mots-clés, et non de phrases entières. Certains termes, isolés de tout contexte, sont à eux seuls associés à un fort degré de toxicité, comme l’insulte « connard », qui culmine à 94 %. Les auteurs du rapport dénoncent ce « manque de flexibilité » du modèle, jugé « inefficace » en l’état.

Tromper les algorithmes

Ce n’est pas la première fois que des spécialistes tentent de tromper les algorithmes. Beaucoup d’autres expériences ont ainsi été menées par le passé, à l’image de celle conduite par Sravana Reddy et Kevin Knight. Tous deux avaient montré qu’en modifiant les termes que l’on utilisait, l’on pouvait se faire passer comme étant d’un autre genre que le nôtre aux yeux des machines. Par exemple, en utilisant les mots « leggings », « petit ami » ou « manicure », les algorithmes nous identifieraient plus comme étant une fille. En écrivant « armes », « frère » ou « barbier », comme un garçon.

Si les auteurs de l’étude critiquant l’outil Perspective n’ont, à ce dernier cas, aucune solution à apporter, ils suggèrent toutefois que Google élargisse sa base de données avec « différentes versions des mots toxiques », afin d’améliorer ses techniques de lutte contre les commentaires haineux.