Im ersten Teil dieses Artikels haben wir uns auf die Suche nach den Fortschritten von Computern gemacht, die menschliche Champions in verschiedenen klassischen Spielen - darunter Backgammon, Schach und Go - sowie in einigen moderneren Erfindungen besiegen.
In diesem Teil werden wir uns auf die Fortschritte der letzten zwei Jahre konzentrieren. Dazu gehören zwei äußerst beliebte und dennoch komplexe Videospiele, nämlich StarCraft II und Dota 2, sowie ein Programm, das in der Lage ist, mehrere Spiele auf übermenschlichem Niveau zu spielen. Wir werden auch erörtern, warum die Fähigkeit, Spiele zu spielen, ein enorm wichtiger Aspekt der Forschung im Bereich der künstlichen Intelligenz und des maschinellen Lernens ist, der von vielen unterschätzt wird, und welche Auswirkungen dies auf die Menschheit als Ganzes hat.
StarCraft II - Abstraktionsebenen und Reinforcement Learning
StarCraft II ist ein Strategie-Videospiel, in dem der Spieler die Karte erkundet, Ressourcen sammelt, neue Basen und Gebäude errichtet, Technologien erforscht und Kampfeinheiten produziert, um schließlich alle Basen des Gegners anzugreifen und zu zerstören.
Das Programm, das es abspielt, muss jeden Frame des Spiels, der nur einen Bruchteil einer Sekunde dauert, interpretieren und Aktionen mit Maus und Tastatur ausführen. Eine einfachere Version besteht darin, sich direkt mit der Spiel-API zu verbinden und mit ihrem abstrakten Modell zu interagieren. Dennoch gibt es bei diesem Spiel viele Herausforderungen zu beachten:
- Er verfügt nur über unvollkommene Informationen, da sich der Gegner im so genannten 'Nebel des Krieges' versteckt.
- Die Spieler müssen Dutzende von Gebäuden und Einheiten verwalten
- Strategisch gesehen ist ebenfalls eine umfassende Vorausplanung erforderlich, einschließlich der Aufrechterhaltung eines Gleichgewichts zwischen der Investition von Ressourcen in Wirtschaftsleistung und militärische Macht.
- Auch auf taktischer Ebene müssen die Spieler jederzeit die einzelnen Einheiten im Kampf steuern.
Trotz alledem konnte AlphaStar, ein vom Team hinter AlphaGo entwickeltes Programm, Anfang 2019 einen der besten menschlichen Spieler - Grzegorz "MaNA" Komnicz - mit einem perfekten Ergebnis von 5 zu 0 entscheidend besiegen.
AlphaStar modelliert und analysiert ständig den Zustand des Schlachtfelds und ist in der Lage, seine Basen, Armeen und die Umgebung, in der er agiert, anhand von Videoeingaben zu erkennen. Die aktuelle Version war darauf beschränkt, nur eines von sechs möglichen Matchups und nur auf einer einzigen Karte zu spielen. Auf der anderen Seite war die Anzahl der Aktionen pro Minute begrenzt und es gab eine leichte Verzögerung zwischen Eingabe und Reaktion, um den Faktor der übermenschlichen Reflexe zu eliminieren.
Das Programm wurde zunächst ähnlich wie AlphaGo trainiert, indem es eine Reihe von Wiederholungen von Spielen zwischen Menschen beobachtete. In der zweiten Phase wurden jedoch mehrere Instanzen des Programms in Spielen gegeneinander eingesetzt. Diese Instanzen, auch Agenten genannt, mussten abwägen zwischen der Erkundung des Neulands der Taktik und Strategie und der Nutzung des bereits vorhandenen Wissens, um sich einen Vorteil zu verschaffen. Die Ergebnisse werden dann in eine Belohnung umgewandelt, die weitere Aktionen steuert. Diese Technik wird als Reinforcement Learning bezeichnet und ist neben dem überwachten und dem unüberwachten Lernen eines der drei neuesten Paradigmen des maschinellen Lernens, die derzeit verwendet werden.
Ab Sommer 2019 sind AlphaStar-Agenten frei auf öffentlichen Spielservern unterwegs, lernen von unzähligen menschlichen Spielern und spielen alle drei in StarCraft II verfügbaren Ethnien. Wir warten immer noch auf eine Version des Programms, die in der Lage sein wird, mit jeder Ethnie gegen jede andere Ethnie auf mehreren verfügbaren Karten zu gewinnen.
Dota 2 - Teamplay und rekurrente neuronale Netze
Jeder Spieler steuert einen Helden, sammelt Erfahrung, erhält Gold, kauft Gegenstände und erkundet die Karte, während er die gegnerischen Helden ködert, in einen Hinterhalt lockt und bekämpft - alles, um letztendlich eines der Gebäude zu zerstören, das die Gegner bewachen, um das Spiel zu gewinnen.
Es gibt über 100 verfügbare Helden, jeder mit mehreren einzigartigen Fähigkeiten und über 200 Gegenstände im Spiel. Die Regeln sind sehr komplex und die Anzahl der möglichen Interaktionen zwischen Spielelementen und Spielzügen scheint endlos. Die Koordination zwischen allen 5 Spielern im Team ist ebenfalls ein sehr wichtiger Aspekt des Spiels.
Im August 2017 stellte das OpenAI-Team die erste Version seines Programms vor, das schlicht Five genannt wird. Es war in der Lage, mehrere menschliche Champions in einer sehr eingeschränkten Version des Spiels mit nur zwei Helden in der ersten Spielphase zu schlagen. Im April 2019 konnte eine aktualisierte Version, die ein Spiel in voller Länge spielte, mit einem auf 18 reduzierten Heldenpool und einigen anderen Einschränkungen menschliche Champions des Teams OG mit einem Ergebnis von 2 zu 0 besiegen.
OpenAI Five verwendet die API des Spiels, ähnlich wie frühe Versionen von AlphaStar, und sieht den Spielzustand als eine Liste von 20.000 Zahlen, die 8 Mal pro Sekunde eine von 170.000 möglichen diskretisierten Aktionen auslösen. Die Reaktionszeiten sind wieder einmal künstlich verzögert, um den Aspekt der übermenschlichen Reflexe auszuschließen.
Jeder KI-Spieler ist auch ein separates Programm, so dass das gesamte Team im Spiel aus 5 kooperierenden unabhängigen Einheiten besteht. Die Programme wurden mit Hilfe von Techniken des verstärkten Lernens und der proximalen Optimierung von Strategien trainiert. Jedes Programm besteht aus einer Schicht von 1.024 Long Short-Term Memory-Einheiten. LSTM ist eine Art rekurrentes neuronales Netzwerk, das nicht mit einer einzigen Eingabe arbeitet, sondern eine beliebig lange Folge von Eingaben verarbeiten und deren Abhängigkeiten aufgrund der internen Zustandsdarstellung verfolgen kann. Das System wurde auf 128.000 Kernen preemptibler virtueller Maschinen und 256 P100 GPUs auf der Google Cloud Platform trainiert, wodurch es insgesamt 900 Echtzeitjahre an Spielerfahrung pro Tag sammeln konnte. Ähnlich wie bei AlphaStar warten wir noch auf eine Version, die in der Lage sein wird, menschliche Champions in einem Spiel ohne Einschränkungen zu schlagen.
Drei in Einem - Zum allgemeinen Spielgeschehen
Inzwischen hat Deep Mind an einer Erweiterung seines AlphaGo-Programms gearbeitet. Der nächste Schritt nach dem Sieg über den menschlichen Champion im Jahr 2017 war eine Version namens AlphaGo Zero.
Im Gegensatz zu früheren Versionen stützte es sich nicht auf ein anfängliches Training anhand historischer Spieldaten, sondern begann bei Null, ohne jegliche Kenntnis von Go, und verbesserte sich nur, indem es gegen sich selbst spielte und die Technik des verstärkten Lernens nutzte.
Es war in der Lage, innerhalb von 3 Trainingstagen eine Leistung auf dem Niveau von AlphaGo aus dem Jahr 2016 zu erreichen und erreichte innerhalb von 21 Tagen das gleiche Niveau wie sein Vorgänger aus dem Jahr 2017.
Im Dezember 2018 hat Deep Mind einen weiteren Meilenstein veröffentlicht - ein Programm namens AlphaZero war in der Lage, drei verschiedene Spiele von Grund auf zu erlernen und schnell ein übermenschliches Niveau zu erreichen. Die Spiele waren Schach, Go und Shogi. Nach 34 Stunden Training war AlphaZero in der Lage, seinen Vorgänger AlphaGo Zero, der 3 Tage lang trainiert wurde, mit einem Ergebnis von 60 zu 40 zu schlagen. Dann besiegte es das beste Schachprogramm, Stockfish, nach nur 4 Stunden Training - und das von Grund auf. Beim Spiel gegen Stockfish musste AlphaZero nur drei Größenordnungen weniger Stellungen pro Sekunde bewerten als Stockfish, aber das war genug.
Schließlich hat es gegen das beste Shogi-Programm - Elmo - gewonnen. Shogi, auch bekannt als japanisches Schach, wird auf einem 9 mal 9 großen Brett mit 20 Figuren von 8 Typen gespielt. Seine heutige Form geht auf das 16. Jahrhundert zurück und hat ein etwas größeres Problemfeld als das klassische Schachspiel. AlphaZero ist eines der berühmtesten Beispiele für ein allgemeines Spiel, ein Design einer künstlichen Intelligenz, die mehr als ein Spiel erfolgreich spielen kann. Ein solches Design ist ein wichtiger Schritt auf dem Weg zur Nutzung von KI zur Lösung einer immer größeren Anzahl von Problemen.
Andere Spiele und mehr
Es gibt eine Fülle von Projekten im Bereich der Künstlichen Intelligenz, die sich mit verschiedenen Spielen und wettbewerbsorientierten Aktivitäten befassen. OpenAI beherbergt u.a. das Projekt Neural MMO, in dem eine große Anzahl von Agenten versucht, in riesigen Welten mit offenem Ende und verschiedenen Ressourcen und Herausforderungen zu überleben und verschiedene Aufgaben zu bewältigen. IBM erweitert Watson zu Debater, das versucht, mit einem menschlichen Experten in einer offenen Debatte über ein bestimmtes Thema zu ringen. DeepStack, das an der University of Alberta entwickelt wurde, gewinnt inzwischen gegen die besten Texas Hold'em Poker-Spieler.
Mit der rasant steigenden Popularität und Zugänglichkeit von Tools, Bibliotheken und Ressourcen für maschinelles Lernen sowie der Verfügbarkeit der speziellen Leistung von Cloud Computing wächst die Zahl der Spiele, in denen eine Maschine besser ist als die besten Menschen in der jeweiligen Aktivität oder dem jeweiligen Bereich, rapide. Die Ausstattung von intelligenten Maschinen mit Sensoren und Mitteln zur Interaktion mit der physischen Welt ist eine natürliche Erweiterung der Eroberung virtueller Welten - und wird derzeit erforscht.
Das Endspiel
Manche mögen argumentieren, dass Programme für Spiele, insbesondere für Videospiele, es nicht wert sind, dass man sich mit ihnen beschäftigt, weil sie keine "ernsthafte Wissenschaft" sind. Das kann nicht weiter von der Wahrheit entfernt sein.
Spiele sind Modelle der Realität mit unterschiedlicher Präzision und Abweichung. Das ultimative Ziel der Forschung im Bereich der künstlichen Intelligenz ist es, die Bewältigung beliebiger Aufgaben in immer komplexeren Umgebungen automatisch zu meistern. Letztendlich ist die Welt nur eine Spielumgebung, wenn auch eine, die ungeheuer komplex ist. Wir müssen aber nicht alles genau verstehen oder wissen, um effizient spielen zu können.
Das Fahren eines autonomen Autos ist ein Spiel. Die Diagnose von Patienten anhand von Röntgenbildern ist ein Spiel. Zwischen Sprachen zu übersetzen ist ein Spiel. Das Erkennen von bösartigen E-Mails ist ein Spiel.
Maschinen werden bei einer schnell wachsenden Zahl von Aufgaben besser als Menschen. Die Spieleforschung hat auch einen Aspekt der Unterhaltung und der Effekthascherei, der die Aufmerksamkeit eines breiten Publikums auf sich zieht und Forschern und Unternehmen gleichermaßen hilft, noch schneller voranzukommen. Sie gibt den Menschen auch einen Bezug zur realen Welt. Jeder hat schon einmal Schach gespielt, und viele kennen Starcraft II und die damit verbundene Komplexität. So kann die breite Öffentlichkeit die aktuelle Leistung der heutigen KI leicht vergleichen.
Der nächste große Schritt in diesem Bestreben ist die künstliche allgemeine Intelligenz oder starke KI, die in der Lage ist, jede intellektuelle Aufgabe zu verstehen und zu erlernen, die ein Mensch bewältigen kann. Viele nennen dies die ultimative menschliche Erfindung oder den heiligen Gral der Wissenschaft, während andere es für unmöglich halten, zumindest zu unseren Lebzeiten. Auf dem bisherigen Weg haben wir jedoch erlebt, wie viele skeptische Behauptungen über das, was möglich ist, zu Staub zerfallen sind.
Geschäftsperspektive
Maschinelles Lernen ist auf dem Vormarsch. Wir wissen, wie man Systeme entwickelt, die in der Lage sind, die besten menschlichen Spieler in immens komplexen Echtzeitspielen mit zunehmender Leichtigkeit und Flexibilität zu besiegen. Dies führt direkt dazu, dass wir in einer Vielzahl von schnelllebigen und anspruchsvollen Geschäftsbereichen unschätzbare Hilfe leisten oder Menschen ganz ersetzen können - ein Kunststück, das noch vor kurzem als unmöglich galt.
Quellen:
Unsere Ideen
Weitere Blogs
Contact


