Google DeepMind kan nu kleine robots trainen die niet op het voetbalveld te koop zijn. In een nieuw artikel dat vandaag is gepubliceerd in Wetenschap Robotica, beschrijven de onderzoekers hun recente inspanningen om een subset van machinaal leren, bekend als diep versterkend leren (deep RL), aan te passen om tweevoetige bots een vereenvoudigde versie van sport te leren. Het team merkt op dat hoewel vergelijkbare experimenten in het verleden extreem wendbare viervoetige robots hebben gecreëerd (zie: Boston Dynamics Spot), er veel minder werk is gedaan aan tweevoetige, mensachtige machines. Maar nieuwe beelden van bots die dribbelen, verdedigen en doelpunten maken laten zien hoe goed deep learning kan zijn voor het coachen van mensachtige machines.
Hoewel het uiteindelijk bedoeld is voor grootschalige taken zoals klimaatvoorspelling en materiaaltechniek, kan Google DeepMind ook menselijke concurrenten absoluut vernietigen in games als schaken, go en zelfs Starcraft II. Maar al die strategische manoeuvres vereisen geen complexe fysieke bewegingen en coördinatie. Dus hoewel DeepMind gesimuleerde voetbalbewegingen kan bestuderen, is het er niet in geslaagd dit te vertalen naar het fysieke veld – maar dat verandert snel.
Om een miniatuur Messi te creëren, ontwikkelden en trainden ingenieurs eerst twee diepgaande sets van RL-vaardigheden in computersimulaties: het vermogen om jezelf van de grond te tillen en hoe je doelpunten kunt maken tegen een ongetrainde tegenstander. Van daaruit trainden ze hun systeem virtueel om een volledige één-op-één voetbalwedstrijd te spelen door deze vaardigheden te combineren en ze vervolgens willekeurig te koppelen aan gedeeltelijk getrainde kopieën van zichzelf.
[Related: Google DeepMind’s AI forecasting is outperforming the ‘gold standard’ model.]
“Zo leerde de agent in de tweede fase eerder aangeleerde vaardigheden te combineren, deze te verfijnen tot een complete voetbaltaak, en te anticiperen en het gedrag van de tegenstander te voorspellen”, schreven de onderzoekers in hun inleiding bij het artikel, waarbij ze later opmerkten dat ” Tijdens het spel wisselden de agenten vloeiend tussen al deze gedragingen.”
Dankzij het diepgaande RL-framework leerden agenten met DeepMind al snel hoe ze bestaande vaardigheden konden verbeteren, waaronder hoe ze een voetbal moesten schieten en trappen, schoten moesten blokkeren en zelfs hun eigen doel moesten verdedigen tegen een aanvallende tegenstander door hun lichaam als schild te gebruiken.
Tijdens een reeks één-op-één-wedstrijden met behulp van robots die gebruik maakten van diepe RL-training, liepen, draaiden, schopten en richtten twee mechanische atleten zich sneller op dan wanneer ingenieurs hen eenvoudigweg een basislijn van vaardigheden hadden gegeven. Dit waren ook geen kleine verbeteringen: vergeleken met de niet-adaptieve basislijn van het script liepen de robots 181 procent sneller, draaiden 302 procent sneller, sloegen 34 procent sneller en hadden 63 procent minder tijd nodig om op te staan na een val. Bovendien vertoonden robots die waren getraind in diepe RL ook nieuw, opkomend gedrag zoals lopen en draaien. Dergelijke acties zouden anders buitengewoon lastig zijn om vooraf te scripten.
Er is nog veel werk te doen voordat de door DeepMind aangedreven robots bij de RoboCup arriveren. Voor deze eerste tests vertrouwden de onderzoekers volledig op diepgaande, op simulatie gebaseerde RL-training voordat ze die informatie overbrachten naar fysieke robots. In de toekomst willen ingenieurs zowel virtuele training als realtime versterkingstraining voor hun bots combineren. Ze hopen hun robots ook groter te maken, maar dat zal veel meer experimenteren en verfijnen vergen.
Het team is van mening dat het gebruik van soortgelijke diepe RL-benaderingen voor voetbal, evenals vele andere taken, de bewegingen van tweevoetige robots en de realtime aanpassingsmogelijkheden verder zou kunnen verbeteren. Toch is het onwaarschijnlijk dat je je al zorgen hoeft te maken over de mensachtige robots van DeepMind op grote voetbalvelden – of op de arbeidsmarkt. Tegelijkertijd is het, gezien hun voortdurende verbeteringen, waarschijnlijk geen slecht idee om je voor te bereiden op het fluitsignaal.