Onderzoeksgerichte training stelt AI-robotica in staat nieuwe taken onmiddellijk op te lossen

Een vrouw voert onderhoud uit aan een robotarm. — boonchai wedmakawand

Algoritmen voor het versterken van leerprocessen in systemen als ChatGPT of Google Gemini kunnen wonderen doen, maar ze hebben meestal honderdduizenden momentopnamen van een taak nodig voordat ze deze goed kunnen uitvoeren. Daarom is het altijd moeilijk geweest om deze prestaties over te brengen naar robots. Je kunt een zelfrijdende auto niet 3000 keer laten crashen, alleen maar om erachter te komen dat crashen slecht is.

Maar nu heeft een team van onderzoekers van de Northwestern University er misschien een manier omheen gevonden. “Dit is wat volgens ons transformerend zal zijn in de ontwikkeling van belichaamde kunstmatige intelligentie in de echte wereld”, zegt Thomas Berrueta, die leiding gaf aan de ontwikkeling van Maximum Diffusion Learning (MaxDiff RL), een algoritme dat specifiek op maat is gemaakt voor robots.

Chaos introduceren

Het probleem bij het toepassen van de meeste algoritmen voor versterkend leren op robots begint met de ingebouwde veronderstelling dat de gegevens waarvan ze leren onafhankelijk en identiek verdeeld zijn. Onafhankelijkheid betekent in deze context dat de waarde van de ene variabele niet afhankelijk is van de waarde van een andere variabele in de dataset. Als je twee keer een munt opgooit, is het krijgen van munt bij de tweede poging niet afhankelijk van het resultaat van je eerste worp. . Een identieke verdeling betekent dat de kans op een specifieke uitkomst hetzelfde is. In het voorbeeld van het opgooien van munten is de kans op het krijgen van kop hetzelfde als het krijgen van munt: 50 procent voor elk.

In virtuele, onstoffelijke systemen, zoals de aanbevelingsalgoritmen van YouTube, is het verkrijgen van dergelijke gegevens eenvoudig omdat deze meestal onmiddellijk aan deze vereisten voldoen. “Je hebt een aantal gebruikers van de ene website en je krijgt gegevens van de ene en vervolgens krijg je gegevens van de andere. Hoogstwaarschijnlijk bevinden deze twee gebruikers zich niet in hetzelfde huishouden en zijn ze niet sterk aan elkaar verwant. Dat zou kunnen, maar het is onwaarschijnlijk”, zegt Todd Murphyy, hoogleraar werktuigbouwkunde aan Northwestern.

Het probleem is dat als deze twee gebruikers familie van elkaar waren en tot hetzelfde huishouden behoorden, het mogelijk is dat de enige reden dat één van hen de video bekeek, was omdat hun huisgenoot ernaar keek en zei dat ze ernaar moesten kijken. Dit zou de eis van onafhankelijkheid schenden en het leren in gevaar brengen.

“Met robots is het verkrijgen van deze onafhankelijke, identiek verdeelde gegevens doorgaans niet mogelijk. “Je bestaat op een bepaald punt in tijd en ruimte wanneer je belichaamd bent, dus je ervaringen moeten op de een of andere manier met elkaar verbonden zijn”, zegt Berrueta. Om dit op te lossen ontwierp zijn team een algoritme dat robots dwingt om zo willekeurig mogelijk avontuurlijk te zijn, om zo een zo breed mogelijk scala aan ervaringen op te doen waar ze van kunnen leren.

Twee smaken van entropie

Het idee op zich is niet nieuw. Bijna twintig jaar geleden bedachten mensen in AI algoritmen, zoals maximale entropie leren (MaxEnt RL), die werkten door willekeurig acties te selecteren tijdens de training. “De hoop was dat als je een zo divers mogelijke reeks acties onderneemt, je een meer diverse reeks mogelijke toekomsten zult verkennen. Het probleem is dat deze acties niet in een vacuüm plaatsvinden”, beweert Berrueta. Elke actie die een robot onderneemt heeft op de een of andere manier invloed op het milieu en op zijn eigen toestand. Het volledig negeren van deze gevolgen leidt vaak tot problemen. Simpel gezegd: een autonome auto die zichzelf op deze manier heeft leren rijden, zou sierlijk op uw oprit kunnen parkeren, maar net zo goed op volle snelheid tegen een muur kunnen botsen.

Om dit op te lossen stapte het team van Berrueta over van het maximaliseren van de diversiteit van acties naar het maximaliseren van de diversiteit van staatsveranderingen. Robots aangedreven door MaxDiff RL wapperden niet willekeurig met hun robotgewrichten om te zien wat het zou doen. In plaats daarvan bedachten ze doelen als ‘kan ik eerder op deze plek komen’, en probeerden vervolgens uit te vinden welke acties hen daar zeker zouden kunnen brengen.

Berrueta en zijn collega’s bereikten dit door middel van iets dat ergodiciteit wordt genoemd, een wiskundig concept dat stelt dat een punt in een bewegend systeem uiteindelijk alle delen van de ruimte zal bezoeken waarin het systeem beweegt. Kortom, MaxDiff RL moedigde robots aan om elke beschikbare staat in hun omgeving te bereiken. En de resultaten van de eerste tests in gesimuleerde omgevingen waren behoorlijk verrassend.

Racepoolnoedels

“Bij versterkend leren zijn er standaardbenchmarks waarop mensen hun algoritmen uitvoeren, zodat we een goede manier hebben om verschillende algoritmen op een standaardframework te vergelijken”, zegt Allison Pinosky, onderzoeker bij Northwestern en co-auteur van de MaxDiff RL-studie. Een van die maatstaven is een gesimuleerde zwemmer: een lichaam met drie schakels dat op de grond rust in een stroperige omgeving en dat moet leren zo snel mogelijk in een bepaalde richting te zwemmen.

In de zwemmerstest presteerde MaxDiff RL beter dan twee andere geavanceerde algoritmen voor het leren van versterking (NN-MPPI en SAC). Het kostte deze twee een paar resets om erachter te komen hoe ze de zwemmers moesten verplaatsen. Om de taak te voltooien volgden ze een standaard AI-leerproces, verdeeld in een trainingsfase waarin het algoritme meerdere mislukte pogingen doorloopt om de prestaties langzaam te verbeteren, en een testfase waarin het de geleerde taak probeert uit te voeren. MaxDiff RL slaagde daar daarentegen in en paste zijn aangeleerde gedrag onmiddellijk aan de nieuwe taak aan.

Eerdere algoritmen slaagden er uiteindelijk niet in om te leren, omdat ze vastliepen bij het proberen van dezelfde opties en nooit een punt bereikten waarop ze konden leren dat de alternatieven werkten. “Ze ondervonden keer op keer dezelfde gegevens omdat ze bepaalde acties lokaal uitvoerden, en ze gingen ervan uit dat dit het enige was wat ze konden doen en stopten met leren”, legt Pinosky uit. MaxDiff RL daarentegen bleef van status veranderen, verkennen, kreeg rijkere gegevens om van te leren, en slaagde daar uiteindelijk in. En omdat het door zijn ontwerp elke mogelijke toestand probeert te bereiken, kan het potentieel alle mogelijke taken binnen de omgeving voltooien.

Maar betekent dit dat we de MaxDiff RL kunnen nemen, in een zelfrijdende auto kunnen laden en hem de weg kunnen laten opgaan om het allemaal zelf uit te zoeken? Niet echt.