The Doppler Quarterly (FRANÇAIS) Printemps 2018 | Page 40
les plus grands spécialistes. Puis, les résultats obtenus
ont été affinés par des spécialistes du jeu eux-mêmes. Le
système évaluait généralement les recherches jusqu'à
une profondeur de 6 à 8 coups, avec la capacité d’aller
jusqu'à 20 coups, voire davantage dans certains cas.
La puissance de calcul pure appliquée au problème a
donné l'impression à son adversaire humain, le cham-
pion du monde Garry Kasparov, que le système faisait
parfois preuve d'une profonde intelligence créative. Or,
en réalité, celui-ci se contentait d’évaluer davantage de
données plus rapidement afin de calculer mathématique-
ment, puis présenter les déplacements optimums.
Dans la recherche informatique consacrée aujourd'hui
au jeu d’échecs, l’accent est davantage mis sur l'optimis-
ation des logiciels que sur le matériel lui-même. À titre
de comparaison, lors d'une rencontre en novembre
2006, un programme d’échecs moderne répondant au
nom de Deep Fritz a battu le champion du monde Vladi-
mir Kramnik alors que le programme était exécuté sur
un ordinateur de bureau classique, équipé d'un proces-
seur à double cœur Intel Xeon 5160 capable d’évaluer
seulement 8 millions de positions par seconde, mais avec
une profondeur de recherche moyenne de 17 à 18 coups
grâce à une technique heuristique.
Émergence de l'avancée n° 2
L'étape majeure suivante a été réalisée en mars 2016 lor-
squ'un système d’IA appelé AlphaGo, du développeur
DeepMind, est parvenu à dominer l'un des champions du
jeu de go les mieux classés au monde, Lee Sedol, lors de
4 parties sur 5. Le jeu de go est plus complexe que celui
des échecs : il se joue sur un plateau de 19 x 19 cases, en
ajoutant un niveau de difficulté supplémentaire dû au
retournement des pièces lorsque celles-ci sont cernées
par les pierres de l’adversaire. Au lieu de la force brute de
Deep Blue, AlphaGo a appliqué ici des techniques d'ap-
prentissage approfondi. Cette approche a permis d'ex-
traire une grande quantité de données de matchs
antérieurs joués entre humains, afin d'entraîner le
moteur d'IA.
La version AlphaGo Lee, qui a vaincu le champion du
même nom, a été remplacée entre fin 2016 et début 2017
par une nouvelle version appelée AlphaGo Master, dans
laquelle la puissance de calcul de 48 TPU distribués a été
ramenée à 4 TPU exécutées sur un seul ordinateur. Une
seule unité TPU (Tensor Processing Unit) de Google
délivre des performances 15 à 30 fois supérieures aux
unités contemporaines de type CPU et GPU. AlphaGo
Master a ainsi remporté la totalité des 60 matchs en
ligne face à une équipe regroupant la plupart des meil-
leurs joueurs du monde, et même le champion du monde
Ke Jie, battu à trois reprises en trois confrontations.
38 | THE DOPPLER | PRINTEMPS 2018
Dans un article paru en octobre 2017, l’équipe d'AlphaGo
a annoncé l'arrivée d'AlphaGo Zero, une version qui
apprend sans l'aide de données humaines, en jouant
seulement avec elle-même. Cette technique est connue
sous le nom d’apprentissage par renforcement. Contrai-
rement aux deux versions antérieures, AlphaGo Zero
s'appuie pour cela sur un réseau neuronal, c'est-à-dire
un « réseau de règles » qui sélectionne le prochain
déplacement joué, secondé par un « réseau de valeurs »
qui prédit le gagnant du jeu à partir de chaque position.
Ce nouvel algorithme a surclassé AlphaGo Lee en 3 jours
et AlphaGo Master en 21 jours. Arrivé au quarantième
jour, il avait déjà dépassé toutes les versions
précédentes !
Dans un autre article publié en décembre 2017, Deep-
Mind affirme avoir généralisé l'approche d'AlphaGo Zero
au sein d'un algorithme nommé AlphaZero, capable d'at-
teindre en 24 heures un niveau surhumain au jeu
d’échecs « shogi » (également connu sous le nom d’échecs
japonais), mais aussi de go, en battant respectivement
les programmes champions du monde Stockfish et Elmo,
ainsi que la version en 3 jours d'AlphaGo Zero. Il est à
noter qu'AlphaGo Zero et AlphaZero étaient tous deux
exécutés sur une machine unique équipée de quatre
processeurs de type TPU.