La technologie développée par Google DeepMind s’adapte au go, mais aussi aux échecs ou au shogi. / CLARISSE CHARBONNIER / « Le Monde »

Après avoir battu à plates coutures les meilleurs humains au jeu de go, le programme d’intelligence artificielle développé par DeepMind, une entreprise de Google, vient d’accomplir une nouvelle performance.

AlphaZero, dérivé du célèbre AlphaGo, s’est cette fois-ci essayé aux échecs, rapportent les chercheurs de DeepMind dans un article détaillant leurs travaux publié en ligne mardi 5 décembre. Et avec succès, puisqu’il est parvenu, en quelques heures d’entraînement seulement, à égaler Stockfish, souvent considéré comme le meilleur programme d’échecs.

Quatre heures d’entraînement seulement

Certes, les échecs ne sont plus un mystère depuis longtemps pour l’intelligence artificielle. En 1997, le programme Deep Blue d’IBM battait le champion Gary Kasparov – un tournant dans l’histoire de l’informatique. Mais la différence réside dans la façon dont sont conçus ces deux programmes. Deep Blue a été créé spécifiquement pour les échecs, et les ingénieurs lui ont inculqué les règles du jeu, les stratégies inspirées des plus grands joueurs et l’ont programmé pour calculer, à chaque coup, un gigantesque arbre de possibilités afin d’évaluer la meilleure décision à prendre.

AlphaGo, en revanche, a été initialement conçu pour le go, un jeu très différent des échecs. Pour développer sa stratégie, les ingénieurs lui avaient uniquement fourni les règles du go, sans aucune indication sur les stratégies à utiliser. AlphaGo – ou plus précisément, AlphaGo Zero, sa dernière version – a joué des millions de parties contre lui-même. Le programme a commencé par jouer des coups aléatoires, avant d’affiner sa stratégie au fil des parties, et de devenir, de loin, le meilleur joueur au monde, humains et machines confondus.

C’est ce même programme, rebaptisé AlphaZero, auquel les chercheurs ont cette fois donné les règles des échecs, qui a appris à jouer à ce jeu, avec un résultat impressionnant. Sur les 100 parties jouées contre Stockfish, AlphaZero n’en a perdu aucune – il en a remporté 28, et la grande majorité se sont terminées sur un nul. Qui plus est, précisent les chercheurs, AlphaZero « a fait mieux que Stockfish après seulement quatre heures » d’entraînement – c’est-à-dire qu’en partant de zéro, il ne lui a fallu que quatre heures de jeu contre lui-même pour devenir un joueur d’exception.

Les échecs japonais aussi

« C’est la preuve que leur méthode est générale. Ça montre que leur algorithme marche aussi pour les échecs, ce qui n’était pas évident a priori », explique Tristan Cazenave, professeur à l’université Paris-Dauphine, spécialiste de la programmation des jeux pour le laboratoire Lamsade. Jusqu’ici, les programmes d’intelligence artificielle consacrés aux échecs étaient restés dans la lignée de Deep Blue, et ne contenaient pas le même genre de technologie d’« apprentissage profond » d’AlphaZero. Des programmes qui, au fil des années, étaient « tellement optimisés » qu’il était difficile d’imaginer qu’on puisse faire mieux, souligne Tristan Cazenave.

Mais AlphaZero ne s’est pas limité aux échecs : il a aussi donné d’excellents résultats au shogi, un jeu japonais qui a longtemps représenté un difficile défi pour l’informatique. Après deux heures d’entraînement, AlphaZero a réussi à vaincre Elmo, l’un des meilleurs programmes de shogi. Sur 100 parties, AlphaZero en a remporté pas moins de 90, perdu 8, et deux parties ont fini sur un nul.

« En commençant par jouer aléatoirement, et sans avoir reçu de connaissance sur le jeu à part ses règles, AlphaZero est parvenu en vingt-quatre heures à atteindre un niveau surhumain de jeu aux échecs et au shogi, ainsi qu’au go, et a battu sans ambiguïté, dans chacun des cas, les meilleurs programmes au monde », résument les chercheurs de DeepMind.

Sise à Londres, DeepMind, entreprise spécialisée dans l’intelligence artificielle, a été rachetée en 2014 par Google, quatre ans après sa création. Sa victoire historique dans le jeu de go lui a donné une immense visibilité, mais l’entreprise travaille sur d’autres questions, notamment dans le domaine de la santé. Du côté des jeux, DeepMind s’intéresse aussi à Starcraft 2, un jeu vidéo qui pose de nouveaux défis au monde de l’intelligence artificielle.

AlphaGo en six dates

Janvier 2016 - DeepMind dévoile l’existence d’AlphaGo dans la revue Nature, révélant que le programme a été capable de battre, trois mois plus tôt, le champion européen Fan Hui.

Mars 2016 - Le Sud-Coréen Lee Sedol, alors considéré comme le meilleur joueur au monde, est battu 4 à 1 par AlphaGo.

Décembre 2016-Janvier 2017 - AlphaGo affronte en ligne, et incognito, des joueurs professionnels de très haut niveau. Il remporte toutes les parties.

Mai 2017 - AlphaGo bat 3-0 le Chinois Ke Jie, champion du monde de go âgé de 19 ans. Dans la foulée, DeepMind annonce qu’AlphaGo ne participera plus à des compétitions.

Octobre 2017 - DeepMind dévoile AlphaGo Zero, capable d’apprendre sans données humaines.

Décembre 2017 - DeepMind présente AlphaZero, qui bat les meilleurs programmes au échecs et au shogi.