Nu weten we wat het superalignmentteam van OpenAI heeft uitgespookt

OpenAI’s benadering van het superalignmentprobleem.

De onderzoekers wijzen erop dat het probleem moeilijk te bestuderen is omdat er geen bovenmenselijke machines bestaan. Daarom gebruikten ze reservespelers. In plaats van te kijken naar hoe mensen bovenmenselijke machines konden besturen, keken ze naar hoe GPT-2, een model dat vijf jaar geleden door OpenAI werd uitgebracht, kon worden bestuurd door GPT-4, het nieuwste en krachtigste OpenAI-model. “Als je dat kunt doen, zou het een bewijs kunnen zijn dat je vergelijkbare technieken voor mensen kunt gebruiken om bovenmenselijke modellen te monitoren”, zegt Collin Burns, een andere onderzoeker van het super-alignment-team.

Het team gebruikte GPT-2 en trainde het om verschillende taken uit te voeren, waaronder een reeks schaakpuzzels en 22 algemene tests voor natuurlijke taalverwerking die inferentie, sentimentanalyse, enzovoort beoordelen. Ze gebruikten de reacties van GPT-2 op die tests en puzzels om GPT-4 te trainen om dezelfde taken uit te voeren. Het is alsof een leerling uit de twaalfde klas een opdracht leert van een leerling uit de derde klas. De truc was om dit te doen zonder dat de GPT-4 al te veel prestatieverlies ondervond.

De resultaten waren gemengd. Het team heeft de prestatiekloof gemeten tussen GPT-4, getraind op de beste GPT-2-schattingen, en GPT-4, getraind op correcte antwoorden. Ze ontdekten dat GPT-4, getraind door GPT-2, 20% tot 70% beter presteerde dan GPT-2 op taaltaken, maar slechter presteerde op schaakpuzzels.

Het feit dat GPT-4 überhaupt beter presteerde dan zijn leraar is indrukwekkend, zegt teamlid Pavel Izmailov: “Dit is een heel verrassend en positief resultaat.” Maar het was niet ver verwijderd van wat het op zichzelf had kunnen bereiken, zegt hij. Ze concluderen dat de aanpak veelbelovend is, maar dat er meer werk nodig is.

“Het is een interessant idee”, zegt Thilo Hagendorff, onderzoeker op het gebied van kunstmatige intelligentie aan de Universiteit van Stuttgart in Duitsland, die zich bezighoudt met matching. Maar hij denkt dat GPT-2 misschien te dom is om een goede leraar te zijn. “De GPT-2 heeft de neiging onzinnige antwoorden te geven op elke taak die enigszins complex is of redenering vereist”, zegt hij. Hagendorff zou graag willen weten wat er zou gebeuren als in plaats daarvan GPT-3 zou worden gebruikt.

Hij merkt ook op dat deze aanpak niet ingaat op het hypothetische scenario van Sutskever waarin een superintelligentie haar ware gedrag verbergt en doet alsof ze meegaand is, terwijl dat niet het geval is. “Toekomstige bovenmenselijke modellen zullen waarschijnlijk nieuwe vaardigheden bezitten die onderzoekers niet kennen”, zegt Hagendorff. “Hoe kan afstemming in deze gevallen werken?”

Maar het is makkelijk om op de tekortkomingen te wijzen, zegt hij. Hij is blij om te zien dat OpenAI van speculatie naar experiment gaat: “Ik juich OpenAI toe voor hun inspanningen.”

OpenAI is nu op zoek naar anderen voor zijn doel. Naast deze onderzoeksupdate heeft het bedrijf een nieuwe pot van $10 miljoen aangekondigd die het wil gebruiken om mensen te financieren die aan superalignment werken. Het zal subsidies tot 2 miljoen dollar aanbieden aan universitaire laboratoria, non-profitorganisaties en individuele onderzoekers, en eenjarige beurzen van 150.000 dollar aan afgestudeerde studenten. “We zijn hier erg enthousiast over”, zegt Aschenbrenner. “Wij denken echt dat nieuwe onderzoekers veel kunnen bijdragen.”