The Doppler Quarterly (FRANÇAIS) Printemps 2018 | Page 40

les plus grands spécialistes. Puis, les résultats obtenus ont été affinés par des spécialistes du jeu eux-mêmes. Le système évaluait généralement les recherches jusqu'à une profondeur de 6 à 8  coups, avec la capacité d’aller jusqu'à 20 coups, voire davantage dans certains cas. La puissance de calcul pure appliquée au problème a donné l'impression à son adversaire humain, le cham- pion du monde Garry Kasparov, que le système faisait parfois preuve d'une profonde intelligence créative. Or, en réalité, celui-ci se contentait d’évaluer davantage de données plus rapidement afin de calculer mathématique- ment, puis présenter les déplacements optimums. Dans la recherche informatique consacrée aujourd'hui au jeu d’échecs, l’accent est davantage mis sur l'optimis- ation des logiciels que sur le matériel lui-même. À titre de comparaison, lors d'une rencontre en novembre 2006, un programme d’échecs moderne répondant au nom de Deep Fritz a battu le champion du monde Vladi- mir Kramnik alors que le programme était exécuté sur un ordinateur de bureau classique, équipé d'un proces- seur à double cœur Intel Xeon 5160 capable d’évaluer seulement 8 millions de positions par seconde, mais avec une profondeur de recherche moyenne de 17 à 18 coups grâce à une technique heuristique. Émergence de l'avancée n° 2 L'étape majeure suivante a été réalisée en mars 2016 lor- squ'un système d’IA appelé AlphaGo, du développeur DeepMind, est parvenu à dominer l'un des champions du jeu de go les mieux classés au monde, Lee Sedol, lors de 4 parties sur 5. Le jeu de go est plus complexe que celui des échecs : il se joue sur un plateau de 19 x 19 cases, en ajoutant un niveau de difficulté supplémentaire dû au retournement des pièces lorsque celles-ci sont cernées par les pierres de l’adversaire. Au lieu de la force brute de Deep Blue, AlphaGo a appliqué ici des techniques d'ap- prentissage approfondi. Cette approche a permis d'ex- traire une grande quantité de données de matchs antérieurs joués entre humains, afin d'entraîner le moteur d'IA. La version AlphaGo Lee, qui a vaincu le champion du même nom, a été remplacée entre fin 2016 et début 2017 par une nouvelle version appelée AlphaGo Master, dans laquelle la puissance de calcul de 48 TPU distribués a été ramenée à 4 TPU exécutées sur un seul ordinateur. Une seule unité TPU (Tensor Processing Unit) de Google délivre des performances 15  à 30  fois supérieures aux unités contemporaines de type CPU et GPU. AlphaGo Master a ainsi remporté la totalité des 60 matchs en ligne face à une équipe regroupant la plupart des meil- leurs joueurs du monde, et même le champion du monde Ke Jie, battu à trois reprises en trois confrontations. 38 | THE DOPPLER | PRINTEMPS 2018 Dans un article paru en octobre 2017, l’équipe d'AlphaGo a annoncé l'arrivée d'AlphaGo Zero, une version qui apprend sans l'aide de données humaines, en jouant seulement avec elle-même. Cette technique est connue sous le nom d’apprentissage par renforcement. Contrai- rement aux deux versions antérieures, AlphaGo Zero s'appuie pour cela sur un réseau neuronal, c'est-à-dire un « réseau de règles » qui sélectionne le prochain déplacement joué, secondé par un « réseau de valeurs » qui prédit le gagnant du jeu à partir de chaque position. Ce nouvel algorithme a surclassé AlphaGo Lee en 3 jours et AlphaGo Master en 21 jours. Arrivé au quarantième jour, il avait déjà dépassé toutes les versions précédentes ! Dans un autre article publié en décembre 2017, Deep- Mind affirme avoir généralisé l'approche d'AlphaGo Zero au sein d'un algorithme nommé AlphaZero, capable d'at- teindre en 24 heures un niveau surhumain au jeu d’échecs « shogi » (également connu sous le nom d’échecs japonais), mais aussi de go, en battant respectivement les programmes champions du monde Stockfish et Elmo, ainsi que la version en 3  jours d'AlphaGo Zero. Il est à noter qu'AlphaGo Zero et AlphaZero étaient tous deux exécutés sur une machine unique équipée de quatre processeurs de type TPU.