De schaakexperimenten van Google laten zien hoe de kracht van AI kan worden vergroot

Zijn groep besloot erachter te komen. Ze creëerden een nieuwe, diverse versie van AlphaZero, die meerdere AI-systemen omvat die onafhankelijk en in verschillende situaties zijn getraind. Het algoritme dat het hele systeem bestuurt, fungeert als een soort virtuele matchmaker, zei Zahavy: een algoritme dat is ontworpen om te identificeren welke agent de beste kans op succes heeft als het tijd is om een zet te doen. Hij en zijn collega’s hebben ook een ‘diversiteitsbonus’ ingevoerd: een beloning voor het systeem wanneer het strategieën uit een grote selectie aan keuzes haalt.

Toen het nieuwe systeem werd uitgebracht om de games te spelen, merkte het team veel diversiteit op. De veelzijdige AI-speler experimenteerde met nieuwe, effectieve introducties en nieuwe – maar gezonde – beslissingen over specifieke strategieën, zoals wanneer en waar te doden. Het versloeg de originele AlphaZero in de meeste wedstrijden. Het team ontdekte ook dat de gediversifieerde versie twee keer zoveel uitdagende puzzels kon oplossen als het origineel en meer dan de helft van de hele catalogus van Penrose-puzzels kon oplossen.

“Het idee is dat in plaats van één oplossing of één beleid te vinden, het elke speler hier kan verslaan [it uses] het idee van creatieve diversiteit”, zei Cully.

Met toegang tot meer en verschillende gespeelde games, zei Zahavy, had een diverse AlphaZero meer opties voor lastige situaties wanneer deze zich voordeden. “Als je controle hebt over het soort games dat het ziet, heb je feitelijk ook controle over hoe het generaliseert”, zei hij. Die vreemde intrinsieke beloningen (en bijbehorende bewegingen) kunnen voordelen worden voor ander gedrag. Vervolgens zou het systeem kunnen leren verschillende benaderingen te evalueren en te evalueren en te zien wanneer deze het meest succesvol waren. “We hebben vastgesteld dat deze groep agenten daadwerkelijk overeenstemming kan bereiken over deze standpunten.”

En het allerbelangrijkste: de implicaties reiken verder dan schaken.

Creativiteit uit het echte leven

Cully zei dat de veelzijdige aanpak elk kunstmatige-intelligentiesysteem kan helpen, en niet alleen systemen die gebaseerd zijn op versterkend leren. Hij maakt al lang gebruik van diversiteit om fysieke systemen te trainen, waaronder een robot van zes figuren die verschillende soorten bewegingen mocht verkennen, voordat hij deze opzettelijk ‘verwondde’, waardoor hij kon blijven bewegen met behulp van enkele van de technieken die hij eerder had ontwikkeld. “We probeerden gewoon oplossingen te vinden die anders waren dan alle eerdere oplossingen die we tot nu toe hadden gevonden.” Onlangs heeft hij ook samengewerkt met onderzoekers om diversiteit te gebruiken om veelbelovende nieuwe kandidaat-geneesmiddelen te identificeren en effectieve aandelenhandelstrategieën te ontwikkelen.

“Het doel is om een grote verzameling van potentieel duizenden verschillende oplossingen te creëren, waarbij elke oplossing heel anders is dan de volgende”, aldus Cully. Dus – net zoals de veelzijdige schaker heeft geleerd – kon het totale systeem voor elk type probleem de best mogelijke oplossing kiezen. Het AI-systeem van Zahavy laat volgens hem duidelijk zien hoe “het zoeken naar verschillende strategieën helpt om buiten de gebaande paden te denken en oplossingen te vinden.”

Zahavy vermoedt dat als AI-systemen creatief willen denken, onderzoekers ze eenvoudigweg moeten dwingen meerdere opties te overwegen. Die hypothese suggereert een vreemd verband tussen mens en machine: misschien is intelligentie alleen maar een kwestie van rekenkracht. Voor een AI-systeem komt creativiteit misschien neer op het vermogen om een voldoende groot aanbod aan opties te overwegen en te kiezen. Naarmate het systeem beloond wordt voor het kiezen van verschillende optimale strategieën, wordt dit soort creatieve probleemoplossing steeds sterker. Ten slotte zou het in theorie elk type probleemoplossende strategie kunnen nabootsen die bij mensen als creatief wordt beschouwd. Creativiteit zou een computationeel probleem worden.

Liemhetcharat merkte op dat het onwaarschijnlijk is dat een divers AI-systeem het bredere probleem van generalisatie in machinaal leren volledig zal oplossen. Maar het is een stap in de goede richting. “Het verzacht een van de nadelen”, zei ze.

Meer praktisch resoneren de resultaten van Zahavy met recente inspanningen die laten zien hoe samenwerking kan leiden tot betere prestaties bij moeilijke taken tussen mensen. De meeste hits op de Billboard 100 zijn bijvoorbeeld geschreven door songwritingteams en niet door individuen. En er is nog ruimte voor verbetering. De andere aanpak is momenteel computationeel duur, omdat er met veel meer mogelijkheden rekening moet worden gehouden dan bij een typisch systeem. Zahavy is er ook niet van overtuigd dat zelfs een diverse AlphaZero het volledige scala aan mogelijkheden dekt.

“Dat doe ik nog steeds [think] Er is ruimte om verschillende oplossingen te vinden”, zei hij. ‘Het is mij niet duidelijk dat, gegeven alle gegevens ter wereld, deze bestaan [only] één antwoord op elke vraag.”

Origineel verhaal herdrukt met toestemming van Quanta-tijdschrift, redactioneel onafhankelijke uitgave Stichting Simmons wiens missie het is om het publieke begrip van wetenschap te verbeteren door onderzoeksontwikkelingen en trends in de wiskunde en de natuur- en levenswetenschappen te behandelen.