« Starcraft II » est un jeu de stratégie mettant aux prises trois peuples dans une guerre interplanétaire. / Blizzard entertainment

Après le jeu de go, les technologies de DeepMind seraient-elles sur le point de vaincre l’humain au jeu Starcraft II ? Ce jeu vidéo sorti en 2011 représente un défi conséquent pour le secteur de l’intelligence artificielle (IA), sur lequel travaillent plusieurs spécialistes comme DeepMind. Cette entreprise londonienne, rachetée par Google en 2014, avait été rendue célèbre en 2016, quand son programme AlphaGo avait vaincu Lee Sedol, l’un des meilleurs joueurs du monde, au jeu de go – un défi que les chercheurs en IA ne pensaient pas avoir relevé avant une ou deux décennies.

Après cet exploit, DeepMind avait annoncé à la fin de 2016 son intention de s’attaquer à Starcraft II. Deux ans plus tard, il semblerait que l’entreprise soit en bonne voie pour réitérer sa prouesse. Jeudi 24 janvier, elle a annoncé que son programme AlphaStar avait réussi à battre des joueurs professionnels dans dix parties consécutives. Ces parties, effectuées en décembre 2018 contre Grzegorz « MaNa » Komincz et Dario « TLO » Wünsch (deux joueurs professionnels de haut niveau), ont été mises en ligne jeudi.

DeepMind StarCraft II Demonstration
Durée : 02:52:50

Une dernière partie opposant la machine à MaNa a, quant à elle, été jouée et diffusée en direct… à l’issue de laquelle l’humain a, cette fois, gagné.

Des défis complexes pour une IA

Développé par Blizzard, Starcraft II est l’un des titres les plus joués en compétition de jeux vidéo, notamment en Corée du Sud. Ce jeu de stratégie oppose des armées de races extraterrestres qui doivent extraire des ressources comme du minerai ou du gaz, afin de bâtir des édifices militaires et attaquer leurs ennemis. Il impose aux joueurs de gérer, en temps réel, des dizaines, voire des centaines d’unités simultanément.

Un système d’IA doit donc gérer de nombreuses données à partir desquelles établir une stratégie face à un adversaire, le tout en temps réel. Qui plus est, contrairement aux échecs ou au jeu de go par exemple, le joueur ne voit pas toute la zone de jeu : il ne connaît pas, par exemple, toutes les positions de ses ennemis, et doit envoyer des unités pour la découvrir. Une difficulté supplémentaire pour l’IA.

Basé sur un réseau de neurones artificiels, le programme AlphaStar s’est « entraîné » en observant des parties effectuées par d’excellents joueurs, puis en jouant contre elle-même, afin de s’améliorer en permanence. Le programme a ainsi accumulé en deux semaines l’équivalent de 200 années de jeu, selon DeepMind dans son billet de blog expliquant l’opération.

Quelques avantages en faveur de l’IA

Dans la compétition diffusée sur Youtube, AlphaStar partait néanmoins avec des avantages. Pour commencer, les matchs opposent deux équipes de Protoss – une des trois races extraterrestres de l’univers de Starcraft, chacune ayant des caractéristiques propres et nécessitant des stratégies distinctes. Or, si AlphaStar a été entraînée dans l’optique de disputer un match dans pareille configuration, son premier adversaire, TLO, reconnaît ne pas savoir jouer « à un niveau professionnel » avec une armée de Protoss. En revanche, MaNa, le deuxième adversaire d’AlphaStar, est bien l’un des meilleurs joueurs Protoss mondiaux.

Ensuite, contrairement à un joueur humain qui doit déplacer la caméra pour observer l’ensemble du champ de bataille, l’omniscient AlphaStar peut théoriquement le « voir » en entier d’un seul coup d’œil. Il ne triche pas pour autant et n’a pas accès à davantage d’informations qu’un humain : les unités adverses se trouvant en dehors du champ de vision de ses propres troupes demeurent invisibles.

« On pourrait croire qu’AlphaStar a un avantage parce que, contrairement à un joueur, il n’a pas à se soucier de déplacer la caméra », explique DeepMind. « Sauf que d’après nos analyses, AlphaStar concentre successivement son attention sur différentes parties du champ de bataille. On s’est rendu compte qu’elle change son point de concentration environ trente fois par minute, ce qui est très similaire aux mouvements de caméra que ferait un humain. »

Et, assurent les développeurs de DeepMind, AlphaStar ne tire pas avantage de sa puissance de calcul pour multiplier les ordres et les clics. Parce qu’elle apprend en analysant les comportements humains, elle reproduit, en fait, leur façon de jouer et n’effectue finalement « que » 277 actions par minute en moyenne. C’est même deux fois moins qu’un joueur humain professionnel. Elle a également un temps de réaction (350 millisecondes) légèrement supérieur à celui d’un humain.

Un comportement parfois curieux

En jeu, les observateurs les plus aguerris de Starcraft II remarqueront bien les particularités du style du jeu d’AlphaStar, joueur efficace mais au comportement parfois curieux. Ainsi, face au joueur TLO, l’intelligence artificielle a privilégié l’attaque, renonçant à construire des défenses (une stratégie pourtant adoptée par l’immense majorité des joueurs humains), construisant plutôt de gigantesques armées hétéroclites, très éloignées de ce à quoi ressemblent celles des joueurs humains. Un des commentateurs l’admet : « je n’ai jamais vu une partie comme ça. »

AlphaStar a aussi montré sur le champ de bataille une capacité à déplacer ses unités avec beaucoup de précision, faisant se succéder rapidement les phases d’attaque et de retraite, les rendant difficiles à toucher. Les commentateurs ont aussi été surpris par certains choix stratégiques de l’IA, comme celui de ne pas récolter de prime abord certaines ressources telles que le gaz. « Ce n’est normalement pas considéré comme une stratégie optimale, mais peut-être qu’AlphaStar sait des choses que nous ne savons pas ! », a plaisanté l’un des commentateurs.

Depuis le début de son travail sur Starcraft II, DeepMind assure que les implications de cette technologie dépassent largement ce seul jeu vidéo et pourraient aider à résoudre d’autres problèmes. Le système derrière AlphaStar « est capable de modéliser de très longues séquences d’actions possibles () basées sur des informations imparfaites », explique l’entreprise sur son site. Une compétence qui s’applique à « beaucoup de défis du monde réel, comme la prédiction météo, climatique, la compréhension du langage et d’autres ».