The Doppler Quarterly (DEUTSCHE) Frühjahr 2018 | Page 40
den die Ergebnisse von den Großmeistern selbst opti-
miert. Das System wertete im Allgemeinen Suchvor-
gänge mit einer Suchtiefe von 6 bis 8 Zügen aus, konnte
in bestimmten Fällen jedoch auch bis zu 20 Züge oder
mehr analysieren.
Durch die enorme Rechenleistung, die auf das Problem
angewandt wurde, sah es für den menschlichen Gegen-
spieler des Systems, den damaligen amtierenden Schach-
weltmeister Garry Kasparov, zuweilen so aus, als ob das
System große Intelligenz und Kreativität bewiese. Tat-
sächlich konnte das System einfach nur mehr Daten
schneller auswerten, um die optimalen Spielzüge mathe-
matisch zu berechnen und zu präsentieren.
In der Computerschachforschung von heute hat sich der
Schwerpunkt von Computer-Hardware zu optimierter
Software verlagert. Zum Vergleich: Bei einer Schachpar-
tie im November 2006 besiegte ein modernes Schach-
programm namens Deep Fritz den Schachweltmeister
Vladimir Kramnik. Das Programm wurde auf einem
handelsüblichen Desktop-Computer mit einer Dual-Co-
re-CPU vom Typ Intel Xeon 5160 ausgeführt, die nur 8
Millionen Positionen pro Sekunde berechnen konnte,
aber mit einem heuristischen Verfahren eine durch-
schnittliche Suchtiefe von 17 bis 18 Zügen erreichte.
Fortschritt Nummer 2
Der nächste große Fortschritt wurde im März 2016
erzielt, als ein von DeepMind entwickeltes KI-System
namens AlphaGo einen der in der Weltrangliste am
höchsten rangierenden Go-Champions, Lee Sedol, in vier
von fünf Spielen besiegte. Go ist ein komplexeres Spiel als
Schach. Sein Spielbrett besteht aus 19 x 19 Feldern. Die
zusätzliche Schwierigkeit besteht darin, dass Spielsteine
geschlagen werden können, wenn sie von den Steinen des
Spielgegners umringt sind. Im Gegensatz zu Deep Blue,
bei dem pure Rechenleistung zum Einsatz kam, wandte
AlphaGo DL-Verfahren an. Dabei wurde eine große
Menge von Daten aus früheren Spielen menschlicher
Spieler verwendet, um die KI zu trainieren.
Die Version, die Lee Sedol besiegte – AlphaGo Lee –
wurde Ende 2016/Anfang 2017 durch eine Version
namens AlphaGo Master ersetzt. Diese reduzierte die
Rechenleistung von 48 verteilten TPUs auf 4 TPUs, die
auf einer einzigen Maschine ausgeführt wurden. TPU
steht für Tensor Processing Unit, einen von Google
entwickelten Chip, der eine 15- bis 30-mal höhere
Leistung als heute übliche CPUs und GPUs bietet.
AlphaGo Master gewann 60 von 60 Onlinespielen
gegen eine Gruppe der besten Spieler weltweit und
38 | THE DOPPLER | FRÜHJAHR 2018
gegen den Weltmeister Ke Jie, den das System in drei
von drei Spielen besiegte.
In einem im Oktober 2017 veröffentlichten Artikel kün-
digte das AlphaGo-Team AlphaGo Zero an, eine Ver-
sion, die ohne menschliche Daten lernte, indem sie nur
gegen sich selbst spielte. Diese Technik bezeichnet man
als „Reinforcement Learning“. AlphaGo Zero verwen-
dete dafür ein einziges neuronales Netzwerk, während
frühere Versionen von AlphaGo noch zwei nutzten – ein
„Policy Network“ für die Auswahl des nächsten Spiel-
zugs und ein „Value Network“ zur Vorhersage des
Gewinners von jeder Position aus. Dieser neue Algorith-
mus übertraf AlphaGo Lee in 3 Tagen und AlphaGo
Master in 21 Tagen. Am 40. Tag hatte AlphaGo Zero alle
vorherigen Versionen übertroffen!
In einem weiteren Artikel, der im Dezember 2017 veröf-
fentlicht wurde, gab DeepMind bekannt, dass die Vorge-
hensweise von AlphaGo Zero in einem Algorithmus
namens AlphaZero generalisiert wurde. Dieser Algorith-
mus erreichte innerhalb von 24 Stunden ein über-
menschliches Spielniveau in Schach, Shogi (auch als japa-
nisches Schach bekannt) und Go, indem er die jeweiligen
Weltmeisterprogramme – Stockfish, Elmo und die
3-Tages-Version von AlphaGo Zero – besiegte. Beachten
Sie, dass sowohl AlphaGo Zero als auch AlphaZero auf
einer einzigen Maschine mit 4 TPUs ausgeführt wurden.