De quoi AlphaGo Zero est-il le progrès ?

Dans une percée historique récente (octobre 2017) l’algorithme AlphaGo Zero mis au point par DeepMind est parvenu à maîtriser le jeu de Go à un niveau suprahumain sans l’aide d’aucune supervision humaine. Pour parvenir à cette prouesse, AlphaGo Zero combine de manière astucieuse trois techniques classiques de l’IA : l’apprentissage par renforcement, la recherche arborescente et l’apprentissage profond. Nous expliquerons comment ces différents éléments s’articulent au sein de l’algorithme AlphaGo Zero et nous examinerons ses atouts et ses limitations. Enfin, nous évoquerons une application à moyen terme de ce type d’algorithme au problème du repliement des protéines, l’un des Graal de la recherche biomédicale actuelle.

1. Résoudre le jeu de Go – un problème « No-Data »

Une méditation artificielle

A moins d’avoir passé ces derniers mois en hibernation ou exilé sur la planète Mars sans connexion internet, la nouvelle a dû vous parvenir : en seulement 40 jours d’exploration numérique autonome le système AlphaGo Zero (AGZ) mis au point par DeepMind a redécouvert 3000 ans de connaissances humaines sur le jeu de Go compilées jusque-là dans des ouvrages spécialisés, dans des collections d’aphorismes ainsi que dans d’innombrables parties de grands maîtres.

Nous ne reviendrons pas ici sur la saga AlphaGo qui a défrayé la chronique depuis plus d’un an, rappelons simplement que AlphaGo Zero l’a emporté 100 contre 0 contre le système qui avait préalablement battu le champion Lee Sedol en 2016.

Dans une forme de méditation artificielle que nous allons décrire en détail, AGZ a joué des millions de parties contre son meilleur adversaire, lui-même, et est devenu… imbattable !

Du Tic-Tac-Toe au jeu de Go

Auteur : Pirmin Lemberger

Directeur scientifique