« Sur Facebook, il y a tant de contenus qu’on ne peut pas se passer d’intelligence artificielle »
« Sur Facebook, il y a tant de contenus qu’on ne peut pas se passer d’intelligence artificielle »
Propos recueillis par Morgane Tual
Antoine Bordes, qui dirige le centre français du laboratoire de recherche en IA de Facebook, détaille, au « Monde », la façon de faire du plus grand réseau social au monde.
Antoine Bordes. / Facebook
Facebook dispose depuis 2013 d’un des laboratoires de recherche en intelligence artificielle (IA) les plus performants au monde. Baptisé Facebook Artificial Intelligence Research (FAIR), il est exclusivement consacré à la recherche — et non pas au développement de fonctionnalités sur Facebook — et se compose de sept centres, dont un à Paris. Ancien du CNRS, Antoine Bordes dirige ce centre français où travaillent une soixantaine de personnes. Axes de recherche, éthique et polémiques…, il détaille au Monde la façon de faire du plus grand réseau social.
Y a-t-il des projets de recherche sur lesquels vous avez travaillé à Paris dont le résultat a servi pour concevoir des fonctionnalités Facebook ?
Antoine Bordes : Il y a un logiciel de classification de texte, FastText, qui permet par exemple de classifier les messages, pour voir s’ils sont appropriés ou non. Autre chose, quand vous voyez un post avec énormément de commentaires, en cliquant vous n’en verrez que quelques-uns. C’est une technique qui sélectionne les dix commentaires qui reflètent ce qui se dit — on ne va pas simplement prendre ceux qui ont le plus de « j’aime », car ce sont souvent les plus extrêmes.
On travaille aussi ici sur la recherche de similarité : je donne une photographie à l’algorithme, et il cherche les images les plus semblables. Facebook s’en sert par exemple pour les questions de copyright, ou pour détecter les images djihadistes.
Ces technologies d’IA ont besoin de données pour apprendre. Utilisez-vous les données des utilisateurs de Facebook ou d’Instagram (qui lui appartient) ?
Il n’y a aucune donnée Facebook dans tous ces projets. On préfère travailler sur des données publiques, car cela nous permet de nous comparer avec d’autres équipes de recherche, et c’est la base pour s’installer comme un laboratoire leadeur en IA.
Pour la classification de texte, les données viennent par exemple de Wikipedia, qui permet d’apprendre dans quatre-vingt-dix langues. On se sert aussi d’Europarl, les données issues du Parlement européen : toutes les séances sont traduites en une vingtaine de langues, c’est une mine d’or pour la traduction ! Et pour le langage plus familier, on utilise [le forum] Reddit.
Vous arrive-t-il d’utiliser, dans certains cas, les données rendues publiques d’utilisateurs de Facebook ou d’Instagram ?
Très rarement. La plupart des gens se disent qu’on a un avantage compétitif pour la recherche parce qu’on a beaucoup de données. Non. En fait, cela ne sert pas à grand-chose de passer à l’échelle des données que pourrait avoir Facebook, parce que les problèmes vraiment fondamentaux sur lesquels on travaille, c’est plutôt comment apprendre avec dix ou vingt exemples seulement.
Mais on peut aussi se dire : vu que les lots de données font souvent un million d’images, qu’est-ce que cela fait si on en met un milliard ? C’est pourquoi, pour un projet, on a utilisé les images d’Instagram publiques. Cela a bien marché. On fait très peu de projets comme ça, mais ce sont des choses que la communauté IA aime bien, car on est à peu près les seuls à pouvoir le faire, et ça lui donne des informations.
Google a annoncé de grands principes éthiques pour encadrer le développement de ses technologies d’IA. Qu’en est-il chez Facebook ?
On mène une réflexion à ce sujet depuis très longtemps. Dans le laboratoire, notre éthique c’est de publier, de coopérer, d’être ouverts aux critiques et d’être complètement transparents sur toutes nos avancées. Tout ce qu’on fait est rendu open source [c’est-à-dire que les travaux sont accessibles à tous, modifiables et réutilisables].
Ensuite, il y a les usages : on développe des outils, mais à quoi vont-ils servir ? Chez Facebook, on a des principes éthiques, par exemple pour encadrer les données qu’on peut utiliser pour développer un algorithme. Il y a un processus interne de vérification, avec des ingénieurs, des juristes, des désigneurs, qui regardent si tel ou tel projet a du sens.
Les ingénieurs de Facebook sont-ils sensibilisés à l’éthique ?
Oui, c’est quelque chose d’assez nouveau. Nos ingénieurs y sont formés, et quasiment tous les masters maintenant vont avoir des cours d’éthique. Il y a une prise de conscience : vous étiez des statisticiens, des mathématiciens, mais maintenant ce que vous faites a un impact plus grand que ce que vous pensiez. Tout le monde a été un peu pris par surprise. C’est pour cela que des projets sont allés un peu trop loin, que des erreurs ont été faites.
Google, épinglé par ses salariés pour un contrat avec le Pentagone, s’est engagé à ne pas mettre ses technologies d’IA au service de l’armement. Avez-vous le même engagement ?
Facebook ne travaille pas avec l’armée, et je pense que nos chercheurs ne le voudraient pas. La question ne s’est même pas posée. Mais est-ce qu’on va changer notre licence open source pour dire que l’armée ne l’utilisera pas ? C’est une discussion qu’on a eue. Yann LeCun [qui dirige FAIR] affirme que si on commence à créer notre propre licence open source, la communauté open source ne va plus s’en servir. Et il ne faut pas se leurrer, si jamais l’armée veut s’inspirer de ce qu’on fait, et qu’on met une autre licence, elle l’utilisera différemment.
Les salariés de Microsoft et d’Amazon ont reproché à leur entreprise des contrats avec la police de l’immigration américaine. Le laboratoire FAIR est-il en lien avec les forces de l’ordre françaises ?
Non. Contrairement à d’autres entreprises, nous n’avons pas de service de cloud ou de suite logicielle qu’on a envie de disséminer un peu partout. L’IA, pour nous, est soit en open source soit appliquée en interne. On ne vend pas de solutions.
Interrogé par le Congrès américain, le patron de Facebook, Mark Zuckerberg, a donné l’impression de brandir l’IA comme une solution aux grands problèmes de Facebook, de la modération aux fausses informations en passant par les faux comptes… Qu’en pensez-vous ?
Ah, ça met la pression ! (rires) Il y a deux types d’IA : celles qui fonctionnent et celles qui pourraient fonctionner si on résolvait quelques problèmes fondamentaux. Il ne faut pas espérer résoudre des problèmes concrets aujourd’hui avec un tchatbot, car il y a beaucoup de choses qu’on ne sait pas faire. Mais toute une partie de l’IA fonctionne de façon impressionnante, comme la reconnaissance de la parole ou la traduction. Et si on veut s’appuyer sur cette partie pour améliorer les choses, on peut faire des progrès.
L’IA peut régler certains soucis, mais elle est aussi la source de problèmes. Le fait qu’un algorithme sélectionne les contenus qui remontent ou non dans le fil des utilisateurs a été critiqué pour créer une « bulle filtrante », qui enferme les gens dans leur propre opinion.
Sur Facebook, il y a tant de contenus qu’on ne peut pas se passer d’IA. Sinon, tout ce qui va sortir ne sera que le clickbait [contenus « attrape-clics »], le spam… or le problème du spam est quasi résolu dans les boîtes e-mail, et c’est grâce à l’IA ! C’est cela qui donne de l’espoir : quand on y travaille vraiment, on avance.
****
Antoine Bordes interviendra lors du Festival de l’innovation Novaq.
Les 13 et 14 septembre, la région Nouvelle-Aquitaine, en partenariat avec Le Monde, organise deux jours de débats, conférences, pitchs et ateliers au H14, à Bordeaux. Scientifiques, experts, entrepreneurs échangeront autour de trois grands thèmes : le cerveau, l’espace et l’océan. Fil rouge de cette édition : l’innovation au service de l’humain.