Le « deep learning », une révolution dans l’intelligence artificielle
Le « deep learning », une révolution dans l'intelligence artificielle
Par Morgane Tual
Cette technologie d'apprentissage, basée sur des réseaux de neurones artificiels, a complètement bouleversé le domaine de l'intelligence artificielle en moins de cinq ans.
« Je n'ai jamais vu une révolution aussi rapide. On est passé d'un système un peu obscur à un système utilisé par des millions de personnes en seulement deux ans. » Yann LeCun, un des pionniers du « deep learning », n'en revient toujours pas. Après une longue traversée du désert, « l'apprentissage profond », qu'il a contribué à inventer, est désormais la méthode phare de l'intelligence artificielle (IA). Toutes les grandes entreprises tech s'y mettent : Google, IBM, Microsoft, Amazon, Adobe, Yandex ou encore Baidu y investissent des fortunes. Facebook également, qui, signal fort, a placé Yann LeCun à la tête de son nouveau laboratoire d'intelligence artificielle installé à Paris.
Ce système d'apprentissage et de classification, basé sur des « réseaux de neurones artificiels » numériques, est, pêle-mêle, utilisé par Siri, Cortana et Google Now pour comprendre la voix, être capable d'apprendre à reconnaître des visages. Il a « découvert » par lui-même le concept de chat et est à l'origine des images psychédéliques qui ont inondé la Toile ces dernières semaines, aux allures de « rêves » de machines.
Le massif du Mont-Blanc vu par Deep Dream. | Basé sur Roman Boed/CC BY 2.0
Qu'est-ce que c'est ?
Concrètement, le deep learning est une technique d'apprentissage permettant à un programme, par exemple, de reconnaître le contenu d'une image ou de comprendre le langage parlé – des défis complexes, sur lesquels la communauté de chercheurs en intelligence artificielle s'est longtemps cassé le nez. « La technologie du deep learning apprend à représenter le monde. C'est-à-dire comment la machine va représenter la parole ou l'image par exemple », pose Yann LeCun, considéré par ses pairs comme un des chercheurs les plus influents dans le domaine. « Avant, il fallait le faire à la main, expliquer à l'outil comment transformer une image afin de la classifier. Avec le deep learning, la machine apprend à le faire elle-même. Et elle le fait beaucoup mieux que les ingénieurs, c'est presque humiliant !»
Pour comprendre le deep learning, il faut revenir sur l'apprentissage supervisé, une technique courante en IA, permettant aux machines d'apprendre. Concrètement, pour qu'un programme apprenne à reconnaître une voiture, par exemple, on le « nourrit » de dizaines de milliers d'images de voitures, étiquetées comme telles. Un « entraînement », qui peut nécessiter des heures, voire des jours. Une fois entraîné, il peut reconnaître des voitures sur de nouvelles images.
Le deep learning utilise lui aussi l'apprentissage supervisé, mais c'est l'architecture interne de la machine qui est différente : il s'agit d'un « réseau de neurones », une machine virtuelle composée de milliers d'unités (les neurones) qui effectuent chacune de petits calculs simples. « La particularité, c'est que les résultats de la première couche de neurones vont servir d'entrée au calcul des autres », détaille Yann Ollivier, chercheur en IA au CNRS, spécialiste du sujet. Ce fonctionnement par « couches » est ce qui rend ce type d'apprentissage « profond ». Yann Ollivier donne un exemple parlant :
« Comment reconnaître une image de chat ? Les points saillants sont les yeux et les oreilles. Comment reconnaître une oreille de chat ? L'angle est à peu près de 45°. Pour reconnaître la présence d'une ligne, la première couche de neurones va comparer la différence des pixels au-dessus et en dessous : cela donnera une caractéristique de niveau 1. La deuxième couche va travailler sur ces caractéristiques et les combiner entre elles. S'il y a deux lignes qui se rencontrent à 45°, elle va commencer à reconnaître le triangle de l'oreille de chat. Et ainsi de suite. »
A chaque étape – il peut y avoir jusqu'à une vingtaine de couches –, le réseau de neurones approfondit sa compréhension de l'image avec des concepts de plus en plus précis. Pour reconnaître une personne, par exemple, la machine décompose l'image : d'abord le visage, les cheveux, la bouche, puis elle ira vers des propriétés de plus en plus fines, comme le grain de beauté. « Avec les méthodes traditionnelles, la machine se contente de comparer les pixels. Le deep learning permet un apprentissage sur des caractéristiques plus abstraites que des valeurs de pixels, qu'elle va elle-même construire », précise Yann Ollivier.
Concrètement, ça donne quoi ?
Outre sa mise en œuvre dans le champ de la reconnaissance vocale avec Siri, Cortana et Google Now, le deep learning est avant tout utilisé pour reconnaître le contenu des images. Google Maps l'utilise pour déchiffrer le texte présent dans les paysages, comme les numéros de rue. Facebook s'en sert pour détecter les images contraires à ses conditions d'utilisation, et pour reconnaître et taguer les utilisateurs présents sur les photos publiées – une fonctionnalité non disponible en Europe. Des chercheurs l'utilisent pour classifier les galaxies. Yann LeCun fait aussi depuis plusieurs années cette démonstration impressionnante : il a créé un programme capable de reconnaître en temps réel les objets filmés par la webcam d'un simple ordinateur portable.
Une des réalisations les plus poussées et les plus spectaculaires du deep learning a eu lieu en 2012, quand Google Brain, le projet de deep learning de la firme américaine, a été capable de « découvrir », par lui-même, le concept de chat. Cette fois, l'apprentissage n'était pas supervisé : concrètement, la machine a analysé, pendant trois jours, dix millions de captures d'écran issues de YouTube, choisies aléatoirement et, surtout, non étiquetées. Un apprentissage « en vrac » qui a porté ses fruits : à l'issue de cet entraînement, le programme avait appris lui-même à détecter des têtes de chats et des corps humains – des formes récurrentes dans les images analysées. « Ce qui est remarquable, c'est que le système a découvert le concept de chat lui-même. Personne ne lui a jamais dit que c'était un chat. Ça a marqué un tournant dans le machine learning », a expliqué Andrew Ng, fondateur du projet Google Brain, dans les colonnes du magazine Forbes.
Plus récemment – et plus gadget –, Google a encore fait parler de lui avec «Deep Dream », un programme permettant, en quelque sorte, de visualiser un processus de deep learning, avec des résultats étonnants. Les formes repérées, analysées et interprétées dans une image par le programme étaient visuellement « augmentées ». En clair, « on demande au réseau “quoi que tu voies, on en veut plus !” (...) Si un nuage ressemble un peu à un oiseau, le réseau va le faire ressembler encore plus à un oiseau », expliquent les auteurs de ce travail sur un blog. Résultat : un cochon-escargot dans les nuages, des palais merveilleux de toutes les couleurs et des circonvolutions hypnotisantes dans les tableaux des grands maîtres…
>> Lire : On a testé pour vous… Deep Dream, la machine à « rêves » psychédéliques de Google
Une forêt, vue par Deep Dream. | Joan Campderros-i-Canas/CC BY 2.0
Pourquoi en parle-t-on autant aujourd'hui ?
Les idées de base du deep learning remontent à la fin des années 80, avec la naissance des premiers réseaux de neurones. Pourtant, cette méthode vient seulement de connaître son heure de gloire. Pourquoi ? Car si la théorie était déjà en place, les moyens, eux, ne sont apparus que très récemment. La puissance des ordinateurs actuels, combinés à la masse de données désormais accessible, a multiplié l'efficacité du deep learning. « On s'est rendu compte qu'en prenant des logiciels que nous avions écrits dans les années 80, lors d'un stage par exemple, et en les faisant tourner sur un ordinateur moderne, ils fonctionnaient beaucoup mieux », explique Andrew Ng à Forbes.
Qui plus est, on sait désormais construire des réseaux de neurones plus complexes, et le développement de l'apprentissage non supervisé a, lui aussi, également contribué à donner une nouvelle dimension au deep learning. « On est passé en cinq ans de techniques qui ne fonctionnaient pas vraiment à des techniques qui marchent. Un cap a été franchi », assure le chercheur Yann Ollivier.
Et pourtant, les spécialistes du deep learning ont longtemps été mis de côté par la communauté scientifique, sceptique. A la fin des années 80, « il y a eu une vague d'intérêt pour le deep learning », se souvient Yann LeCun, qui avait présenté sa thèse sur le sujet en 1987. Un système de lecture de chèques qu'il avait développé lisait, dans les années 90, « entre 10 % et 20 % des chèques émis aux Etats-Unis ». Mais, devant le manque de résultats de ces technologies prometteuses, lié à la faible puissance des machines et le nombre limité de données, la communauté scientifique a fini par s'en détourner.
Yann LeCun, de son côté, est passé en 2002 du monde de l'industrie à celui l'université, où il a rencontré Geoffrey Hinton et Yoshua Bengio. « Nous avons décidé tous les trois de renouveler l'intérêt de la communauté scientifique pour ces méthodes. Ça a été une traversée du désert. On était une espèce de groupe mis à part », raconte Yann LeCun. Le trio se surnomme même, avec autodérision, « la conspiration du deep learning ».
Les technologies évoluant, les résultats commencent toutefois à se montrer de plus en plus prometteurs. « Vers 2010-2012, on a commencé à établir des records. Les grandes entreprises se sont aperçues que ces systèmes fonctionnaient très bien. » En 2013, Geoffrey Hinton remporte la prestigieuse compétition ImageNet, consacrée à la reconnaissance d'image. Une « révolution », se souvient Yann LeCun :
« Il a gagné avec un taux d'erreur deux fois moins élevé que les compétiteurs les plus proches. Une révolution. On est passé d'une attitude très sceptique à une situation où tout le monde s'est mis à y travailler en un an et demi. Je n'ai jamais vu une révolution aussi rapide. Même si, de mon point de vue, elle a mis beaucoup de temps à arriver… »
Et demain ?
« L'espoir est que plus on augmente le nombre de couches, plus les réseaux de neurones apprennent des choses compliquées, abstraites, qui correspondent plus à la manière dont un humain raisonne », anticipe Yann Ollivier. Pour lui, le deep learning va, dans une échéance de 5 à 10 ans, se généraliser « dans toute l'électronique de décision », comme dans les voitures ou les avions. Il pense aussi à l'aide au diagnostic en médecine, citant certains réseaux de neurones qui « se trompent moins qu'un médecin pour certains diagnostics », même si, souligne-t-il, « ce n'est pas encore rôdé ». Les robots seront eux aussi, selon lui, bientôt dotés de cette intelligence artificielle. « Un robot pourrait apprendre à faire le ménage tout seul, et ce serait bien mieux que les robots aspirateurs, qui ne sont pas fantastiques ! », sourit-il. « Ce sont des choses qui commencent à devenir envisageables. »
Chez Facebook, Yann LeCun veut utiliser le deep learning « de façon plus systématique pour la représentation des pièces d'information », en clair, développer une IA capable de comprendre le contenu des textes, photos et vidéos publiées par les internautes. « Mais pour l'instant, on n'y est pas ». Il rêve également de pouvoir créer un assistant numérique personnel avec qui il serait possible de dialoguer par la voix. Plus proche de l'IA du film Her (où un humain tombe amoureux du logiciel de son smartphone) que de l'actuel système Siri des iPhones, précise-t-il.
« Pour Siri et Cortana, les réponses sont écrites à la main. Ces systèmes ne sont intelligents que parce que des ingénieurs ont pensé à toutes les possibilités ». Lui aimerait créer un système plus autonome, « à qui on pourrait poser des questions comme à un ami, sans avoir besoin d'utiliser le bon mot-clé ». Mais, temporise le chercheur, « on ne sait pas faire, on est très loin de Her. Cela nécessite un bien meilleur niveau de compréhension que les systèmes qu'on a actuellement. Et cela nécessite aussi de comprendre la psychologie des gens ».
Plus inattendu, les réseaux de neurones pourraient aussi avoir une influence sur les neurosciences, explique Yann LeCun. « Des chercheurs les utilisent comme un modèle du cortex visuel, car il y a des parallèles ». « Le cerveau humain fonctionne aussi par couches : il capte des formes simples, puis complexes », explique Christian Wolf, spécialiste de la vision par ordinateur à l'INSA de Lyon. « En ce sens, il existe une analogie entre les réseaux de neurones et le cerveau humain. Mais, à part cela, on ne peut pas dire que le deep learning est à l'image du cerveau. »
L'avenir semble donc sourire au deep learning, mais Yann LeCun reste méfiant :
« On est dans une phase très enthousiaste, c'est très excitant. Mais il y a aussi beaucoup de bêtises racontées, il y a des exagérations. On entend dire qu'on va créer des machines intelligentes dans cinq ans, que Terminator va éliminer la race humaine dans dix ans… Il y a aussi de gros espoirs que certains placent dans ces méthodes, qui ne seront peut-être pas concrétisés. Des gens promettent la Lune, et c'est dangereux pour le domaine. »
Ces derniers mois, plusieurs personnalités, parmi lesquelles le fondateur de Microsoft, Bill Gates, l'astrophysicien britannique Stephen Hawking et le PDG de Tesla, Elon Musk, avaient exprimé leurs préoccupations par rapport aux progrès de l'intelligence artificielle, qu'ils jugent potentiellement dangereuse.
Yann LeCun, lui, se veut pragmatique, et rappelle que le domaine de l'IA a souvent souffert des attentes disproportionnées à son égard. Il espère que, cette fois, la discipline ne sera pas victime de cette « inflation des promesses ».
>> Lire le portrait (édition abonnés) : Yann LeCun, l’intelligence en réseaux