The Doppler Quarterly (DEUTSCHE) Frühjahr 2018

den die Ergebnisse von den Großmeistern selbst opti- miert. Das System wertete im Allgemeinen Suchvor- gänge mit einer Suchtiefe von 6 bis 8 Zügen aus, konnte in bestimmten Fällen jedoch auch bis zu 20 Züge oder mehr analysieren. Durch die enorme Rechenleistung, die auf das Problem angewandt wurde, sah es für den menschlichen Gegen- spieler des Systems, den damaligen amtierenden Schach- weltmeister Garry Kasparov, zuweilen so aus, als ob das System große Intelligenz und Kreativität bewiese. Tat- sächlich konnte das System einfach nur mehr Daten schneller auswerten, um die optimalen Spielzüge mathe- matisch zu berechnen und zu präsentieren. In der Computerschachforschung von heute hat sich der Schwerpunkt von Computer-Hardware zu optimierter Software verlagert. Zum Vergleich: Bei einer Schachpar- tie im November 2006 besiegte ein modernes Schach- programm namens Deep Fritz den Schachweltmeister Vladimir Kramnik. Das Programm wurde auf einem handelsüblichen Desktop-Computer mit einer Dual-Co- re-CPU vom Typ Intel Xeon 5160 ausgeführt, die nur 8 Millionen Positionen pro Sekunde berechnen konnte, aber mit einem heuristischen Verfahren eine durch- schnittliche Suchtiefe von 17 bis 18 Zügen erreichte. Fortschritt Nummer 2 Der nächste große Fortschritt wurde im März 2016 erzielt, als ein von DeepMind entwickeltes KI-System namens AlphaGo einen der in der Weltrangliste am höchsten rangierenden Go-Champions, Lee Sedol, in vier von fünf Spielen besiegte. Go ist ein komplexeres Spiel als Schach. Sein Spielbrett besteht aus 19 x 19 Feldern. Die zusätzliche Schwierigkeit besteht darin, dass Spielsteine geschlagen werden können, wenn sie von den Steinen des Spielgegners umringt sind. Im Gegensatz zu Deep Blue, bei dem pure Rechenleistung zum Einsatz kam, wandte AlphaGo DL-Verfahren an. Dabei wurde eine große Menge von Daten aus früheren Spielen menschlicher Spieler verwendet, um die KI zu trainieren. Die Version, die Lee Sedol besiegte – AlphaGo Lee – wurde Ende 2016/Anfang 2017 durch eine Version namens AlphaGo Master ersetzt. Diese reduzierte die Rechenleistung von 48 verteilten TPUs auf 4 TPUs, die auf einer einzigen Maschine ausgeführt wurden. TPU steht für Tensor Processing Unit, einen von Google entwickelten Chip, der eine 15- bis 30-mal höhere Leistung als heute übliche CPUs und GPUs bietet. AlphaGo Master gewann 60 von 60 Onlinespielen gegen eine Gruppe der besten Spieler weltweit und 38 | THE DOPPLER | FRÜHJAHR 2018 gegen den Weltmeister Ke Jie, den das System in drei von drei Spielen besiegte. In einem im Oktober 2017 veröffentlichten Artikel kün- digte das AlphaGo-Team AlphaGo Zero an, eine Ver- sion, die ohne menschliche Daten lernte, indem sie nur gegen sich selbst spielte. Diese Technik bezeichnet man als „Reinforcement Learning“. AlphaGo Zero verwen- dete dafür ein einziges neuronales Netzwerk, während frühere Versionen von AlphaGo noch zwei nutzten – ein „Policy Network“ für die Auswahl des nächsten Spiel- zugs und ein „Value Network“ zur Vorhersage des Gewinners von jeder Position aus. Dieser neue Algorith- mus übertraf AlphaGo Lee in 3 Tagen und AlphaGo Master in 21 Tagen. Am 40. Tag hatte AlphaGo Zero alle vorherigen Versionen übertroffen! In einem weiteren Artikel, der im Dezember 2017 veröf- fentlicht wurde, gab DeepMind bekannt, dass die Vorge- hensweise von AlphaGo Zero in einem Algorithmus namens AlphaZero generalisiert wurde. Dieser Algorith- mus erreichte innerhalb von 24 Stunden ein über- menschliches Spielniveau in Schach, Shogi (auch als japa- nisches Schach bekannt) und Go, indem er die jeweiligen Weltmeisterprogramme – Stockfish, Elmo und die 3-Tages-Version von AlphaGo Zero – besiegte. Beachten Sie, dass sowohl AlphaGo Zero als auch AlphaZero auf einer einzigen Maschine mit 4 TPUs ausgeführt wurden.

The Doppler Quarterly (DEUTSCHE) Frühjahr 2018 | Page 40