Direct naar artikelinhoud

Google ontwerpt nieuwe Go-computer die het spel zélf kan leren en zijn voorganger zo verpulvert

De nieuwe versie van Google's go-computer AlphaGo is zo ontworpen dat hij zonder menselijke hulp getraind kan worden. Het resultaat is verbluffend.

Google ontwerpt nieuwe Go-computer die het spel zélf kan leren en zijn voorganger zo verpulvert
Beeld Thinkstock

AlphaGo won begin dit jaar van de beste go-speler ter wereld, de Chinees Ke Jie. Dat was een mijlpaal: tot dat moment was het ook voor Ke Jie ondenkbaar dat hij ooit van een computer zou verliezen. Ke Jie erkende zijn nederlaag, maar weigerde het hoofd in de schoot te leggen. Als hij maar in de leer zou gaan bij de machine, zou hij weer kans maken. Dacht hij. In mei verloor hij nogmaals, met 3-0.

Kort daarna gooide het AlphaGo-team van Google-dochter DeepMind het over een compleet andere boeg. AlphaGo ging met pensioen om ruimte te maken voor nog iets veel spectaculairders. Zijn opvolger, AlphaGo Zero genaamd, gaat anders te werk. Het resultaat is deze week in Nature gepubliceerd onder de veelzeggende titel 'Het beheersen van het spel go zonder menselijke kennis'.

's Werelds beste go-speler verliest van AlphaGo

'Mensen hebben zich duizenden jaren lang verdiept in het spelen. Nu vertelt een computer ons dat we er naast zaten. Ik denk dat we niet eens de basics van Go weten.' De enige oplossing volgens 's werelds beste go-speler Ke Jie: helemaal opnieuw beginnen en in de leer gaan bij de computer. Dacht hij nog in januari.

Totaal kansloos

Uitgangspunt is om een algoritme te ontwerpen dat als een tabula rasa (onbeschreven blad) ter wereld komt. Waar het neurale netwerk van de vorige versie nog werd volgepompt met onvoorstelbare hoeveelheden trainingsdata en al spelend steeds beter werd, daar gaat Zero nog veel zelfstandiger te werk, schrijven de onderzoekers in Nature. Met uitzondering van de basisregels van het eeuwenoude denkspel gaat AlphaGo Zero vanaf nul te werk, zonder menselijke data, zonder menselijke hulp.

Dit heeft twee voordelen. Het praktische: je hebt geen trainingsdata nodig. AlphaGo Zero speelde in slechts drie dagen bijna vijf miljoen potjes go tegen zichzelf en slaagde er in die drie dagen in om Go-master te worden. 'In zeer korte tijd slaagde AlphaGo Zero erin om alle go-kennis te vergaren die door mensen in duizenden jaren is opgebouwd', zo licht hoofdonderzoeker David Silver de doorbraak toe op een filmpje op YouTube. Het tweede voordeel is nog groter: 'Soms koos AlphaGo om zelfs verder dan dat te gaan en ontdekte hij iets waar mensen in al die duizenden jaren niet opkwamen.' Compleet nieuwe spelinzichten dus.

Ke Jie zal nooit meer in de buurt van een go-computer van DeepMind komen en de mens is in ieder geval op dit deelgebied op onoverbrugbare achterstand gezet. AlphaGo verloor namelijk met 100-0 van zijn opvolger AlphaGo Zero. Totaal kansloos dus.

'Ongelofelijk'

AlphaGo Zero leert uit zichzelf wat kennis van een bepaald onderwerp is. In de praktijk betekent dit volgens de onderzoekers dat deze methodiek ook voor andere toepassingen kan worden gebruikt, zoals de gezondheid of het verminderen van onze energieconsumptie. Niets in het AlphaGo Zero-algoritme is immers specifiek voor go ontworpen. DeepMind-baas Demis Hassabis noemt als voorbeeld het kunstmatig vouwen van proteïnen. Dergelijke kunstmatige eiwitten kunnen bijvoorbeeld worden gebruikt bij de ontwikkeling van een universeel griepvirus.

Leo Dorst, hoogleraar kunstmatige intelligentie aan de Universiteit van Amsterdam, is onder de indruk. 'Deze nieuwe versie is veel mooier ontworpen dan de vorige. En blijkbaar werkt dat ook. Geef hem 72 uur en hij kan ook schaken.' Dorst heeft wat partijen van AlphaGo Zero bekeken en wist niet wat hij zag: 'Het is een ongelofelijke vorm van go.' Volgens hem kan deze nieuwe benadering inderdaad ook op andere terreinen een zeer grote impact hebben.

Twijfel

De hooggespannen verwachtingen van DeepMind worden getemperd door AI-scepticus Gary Marcus van de Universiteit in New York. Tegenover de Amerikaanse omroep NPR zegt hij dat het onzin is dat Zero zonder menselijke kennis werkt: in de algoritmes zelf zit al heel veel impliciete menselijke kennis ingebakken. Marcus moet nog zien of de tabula rasa-aanpak van AlphaGo Zero ook op andere terreinen gaat werken.

Marcus is een verklaard scepticus van de tabula rasa-aanname. In de biologie werkt het volgens hem ook niet zo. Op een AI-conferentie eerder deze maand in Amsterdam liet hij nog video's zien van pasgeboren steenbokken die hun weg weten te vinden op ongeveer verticaal lopende rotsen. Hoe zouden ze dit kunnen zonder enige kennis?, zo vroeg hij zich retorisch af.