The Doppler Quarterly (FRANÇAIS) Printemps 2018 | Page 41

La dernière étape franchie
Bien que les jeux d ' échecs et de go possèdent chacun leur propre niveau de complexité , ils s ' appuient tous deux sur des informations dites « parfaites ». En d ’ autres termes , les deux joueurs peuvent à tout moment visualiser toutes les pièces posées sur l ’ échiquier . Avec la variante du poker Texas Hold ' em en mode « no limit », en revanche , qui se joue en face à face ( à deux joueurs ), les informations sont imparfaites , en ce sens qu ' un joueur ne peut pas voir les deux cartes fermées de l ’ autre joueur , et que les trois dernières cartes abattues après les trois tours de jeu restent inconnues . Pour se donner une petite idée du niveau de complexité que cela représente , lorsque vous jouez une partie , les cartes que vous avez abattues et les cartes ouvertes visibles sur la table constituent une sur 10 puissance 160 combinaisons possibles . Autrement dit , le chiffre 1 suivi de 160 zéros , soit plus que le nombre d ’ atomes contenus dans l ’ univers . Un tel problème ne peut pas être aisément résolu par la force brute en étant simplement traité par un outil de calcul .
À peu près en même temps que l ’ époque où AlphaGo Master progressait par rapport à son prédécesseur AlphaGo Lee , en janvier 2017 , un programme d ’ IA appelé Libratus a été confronté à quatre des meilleurs joueurs de poker au monde : Jason Les , Kim Dong , Daniel McAulay et Jimmy Chou . Au bout de 20 jours de jeu et 120 000 mains de poker , Libratus est sorti vainqueur .
Le professeur Tuomas Sandholm de l ' Université Carnegie Mellon et ses étudiants ont développé Libratus sous la forme d ' un successeur d ’ une version antérieure appelée Claudico ( initialement connue sous le nom de Tartanian ). La marque distinctive de Libratus est le fait que ce programme s ' est appuyé sur une synergie de trois approches différentes :
en premier lieu , il fait appel à une technique dite d ’ apprentissage par renforcement , selon laquelle le programme use de tâtonnements aléatoire et apprend en jouant une partie contre lui-même , via un algorithme dit de réduction des regrets contrefactuels . Il est à noter que cette même technique a été adoptée avec succès sur les dernières versions d ' AlphaGo , à savoir AlphaGo Zero et AlphaZero . Cette méthode finit par tester un éventail tellement large d ’ approches qu ’ elle est capable de trouver des stratégies optimisées qu ' il ne viendrait pas à l ' esprit d ' humains de tenter . Et dans certains cas , c ’ est précisément cela qui a conduit à la défaite de ses adversaires de chair et de sang .
PRINTEMPS 2018 | THE DOPPLER | 39
AlphaGo un jeu plus complexe que le jeu d ’ échecs : il se compose d ’ un plateau de 19 x 19 cases , avec un niveau de difficulté supplémentaire dû au retournement des pièces lorsque celles-ci sont cernées par les pierres de l ’ adversaire .