Hoe AI Kesi, de tweevoetige robot, leerde rennen en springen

De onderzoekers gebruikten een kunstmatige-intelligentietechniek, versterkingsleren genaamd, om een ​​tweevoetige robot met de bijnaam Cassie 400 meter over verschillende terreinen te laten rennen en lange en hoge sprongen uit te voeren vanuit een staande positie zonder expliciet voor elke beweging te zijn getraind. Reinforcement learning werkt door de AI te belonen of te straffen terwijl deze een doel probeert te bereiken. In dit geval leerde de aanpak de robot te generaliseren en te reageren in nieuwe scenario’s, in plaats van te bevriezen zoals zijn voorgangers misschien hadden gedaan.

“We wilden de grenzen van de wendbaarheid van robots verleggen”, zegt Zhongyu Li, een doctoraalstudent aan de University of California, Berkeley, die aan het project werkte, dat nog niet door vakgenoten is beoordeeld. “Het doel op hoog niveau was om de robot te leren hoe hij allerlei dynamische bewegingen moet uitvoeren zoals een mens dat doet.”

Het team gebruikte simulatie om Cassie te trainen, een aanpak die de tijd die nodig is om te leren dramatisch versnelt – van jaren naar weken – en de robot in staat stelt dezelfde vaardigheden in de echte wereld uit te voeren zonder verdere verfijning.

Eerst trainden ze het neurale netwerk dat Cassie bestuurde om een ​​eenvoudige vaardigheid vanaf het begin onder de knie te krijgen, zoals op de plaats springen, vooruit lopen of vooruit rennen zonder om te rollen. Het werd geleerd door het te vragen de bewegingen die het werd getoond te imiteren, waaronder door mensen verzamelde bewegingsopnamegegevens en animaties die de gewenste beweging demonstreerden.

Nadat de eerste fase was voltooid, presenteerde het team het model met nieuwe commando’s die de robot ertoe aanzetten taken uit te voeren met behulp van zijn nieuwe bewegingsvaardigheden. Nadat hij bedreven was geraakt in het uitvoeren van nieuwe taken in een gesimuleerde omgeving, diversifieerden ze vervolgens de taken waarin hij was getraind met behulp van een methode die taakrandomisatie wordt genoemd.

Hierdoor is de robot veel beter voorbereid op onverwachte scenario’s. De robot kon bijvoorbeeld een stabiele gang aanhouden terwijl hij aan de riem zijwaarts werd getrokken. “We lieten de robot de geschiedenis gebruiken van wat hij observeerde en zich snel aanpassen aan de echte wereld”, zegt Lee.

Cassie liep de 400 meter in twee minuten en 34 seconden en sprong daarna 1,4 meter bij het verspringen zonder dat daar extra training voor nodig was.

De onderzoekers zijn nu van plan te onderzoeken hoe dit soort techniek kan worden gebruikt om robots te trainen die zijn uitgerust met camera’s aan boord. Dit zal een grotere uitdaging zijn dan het blindelings uitvoeren van acties, zegt Alan Fern, hoogleraar computerwetenschappen aan de Oregon State University die heeft geholpen bij de ontwikkeling van de Cassie-robot, maar niet bij het project betrokken was.

“De volgende grote stap op dit gebied zijn mensachtige robots die echt werk doen, activiteiten plannen en daadwerkelijk communiceren met de fysieke wereld op een manier die niet alleen maar voet-tot-grond-interacties zijn”, zegt hij.