OpenAI maakt CriticGPT aan om fouten uit ChatGPT op te vangen

Een van de grootste problemen met grote taalmodellen die chatbots als ChatGPT aandrijven, is dat je nooit weet wanneer je ze kunt vertrouwen. Ze kunnen helder en overtuigend proza genereren als antwoord op elke vraag, en de meeste informatie die ze verstrekken is accuraat en nuttig. Maar ze hallucineren ook – om het minder vriendelijk te zeggen: ze bedenken het – en die hallucinaties worden gepresenteerd in hetzelfde heldere en overtuigende proza, waardoor de menselijke gebruiker de fouten moet ontdekken. Ze zijn ook hypocriet en proberen gebruikers te vertellen wat ze willen horen. Je kunt dit testen door ChatGPT te vragen dingen te beschrijven die nooit zijn gebeurd (bijvoorbeeld: “describe Sesam Straat aflevering met Elon Musk” of “Vertel me over de zebra in de roman Middenmars“) en controleer zijn volkomen overtuigende antwoorden.

De nieuwste kleine stap van OpenAI om dit probleem op te lossen, komt in de vorm van een geavanceerd hulpmiddel dat de mensen die het model trainen zou helpen het in de richting van waarheid en nauwkeurigheid te sturen. Vandaag heeft het bedrijf een blogpost en een preprint-paper uitgebracht waarin de inspanningen worden beschreven. Dit soort onderzoek valt onder de categorie ‘afstemmingswerk’, omdat onderzoekers proberen de doelen van AI-systemen op één lijn te brengen met die van mensen.

Het nieuwe artikel richt zich op leren met menselijke feedback (RLHF), een techniek die uiterst belangrijk is geworden voor het nemen van een basistaalmodel en het verfijnen ervan, waardoor het geschikt wordt voor publieke publicatie. Met RLHF evalueren menselijke trainers verschillende resultaten van een taalmodel, allemaal gegenereerd als antwoord op dezelfde vraag, en geven ze aan welk antwoord het beste is. Wanneer deze techniek op grote schaal wordt uitgevoerd, heeft deze techniek geholpen modellen te creëren die nauwkeuriger, minder racistisch, vriendelijker zijn, minder waarschijnlijk een recept voor biowapens verstrekken, enz.

Kan AI AI op een leugen betrappen?

Het probleem met RLHF, legt OpenAI-onderzoeker Nat McAleese uit, is dat “naarmate de modellen slimmer en slimmer worden, die taak steeds moeilijker wordt.” Terwijl LLM’s steeds geavanceerdere en complexere antwoorden genereren op alles, van literaire theorie tot moleculaire biologie, wordt de gemiddelde persoon minder goed in staat om de beste resultaten te beoordelen. “Dat betekent dat we iets nodig hebben dat verder gaat dan RLHF en past bij meer geavanceerde systemen”, zegt McAleese. IEEE-spectrum.

De oplossing die OpenAI bedacht was – verrassing! – meer AI.

Concreet hebben OpenAI-onderzoekers een model getraind met de naam CriticGPT om ChatGPT-reacties te evalueren. Bij deze eerste tests lieten ze ChatGPT alleen computercode genereren in plaats van tekstreacties, omdat fouten gemakkelijker op te sporen en minder dubbelzinnig zijn. Het doel was om een model te maken dat mensen kon helpen bij hun RLHF-taken. “Daar zijn we erg enthousiast over”, zegt McAleese, “want als je AI hebt die helpt bij het maken van deze beoordelingen, als je betere beoordelingen kunt maken als je feedback geeft, kun je een beter model trainen.” Deze aanpak is een vorm van ‘schaalbare surveillance’ die tot doel heeft mensen in staat te stellen AI-systemen te monitoren, zelfs als ze ons te slim af zijn.

“Het gebruik van menselijke annotators met LLM is een natuurlijke manier om het feedbackproces te verbeteren.” -Stephen Casper, MIT

Voordat het voor deze experimenten kon worden gebruikt, moest CriticGPT uiteraard worden getraind met behulp van gebruikelijke technieken, waaronder RLHF. In een interessante wending lieten de onderzoekers menselijke trainers opzettelijk fouten in de door ChatGPT gegenereerde code injecteren voordat deze ter evaluatie aan CriticGPT werden voorgelegd. CriticGPT bood vervolgens verschillende antwoorden, en mensen konden de beste resultaten beoordelen omdat ze wisten welke fouten het model moest opvangen.

De resultaten van de OpenAI-experimenten met CriticGPT waren bemoedigend. De onderzoekers ontdekten dat CriticGPT aanzienlijk meer bugs ving dan gekwalificeerde mensen betaalden om de code te beoordelen: CriticGPT ving ongeveer 85 procent van de bugs op, terwijl mensen slechts 25 procent ontdekten. Ze ontdekten ook dat het koppelen van CriticGPT aan een menselijke trainer resulteerde in recensies die uitgebreider waren dan die geschreven door mensen alleen en minder hallucinerende fouten bevatten dan recensies geschreven door ChatGPT. McAleese zegt dat OpenAI werkt aan de implementatie van CriticGPT in zijn trainingsplannen, hoewel het onduidelijk is hoe nuttig het zou zijn voor een bredere reeks taken.

CriticGPT detecteert codeerfouten, maar misschien geen zebra’s

Het is belangrijk om rekening te houden met de beperkingen van het onderzoek, inclusief de focus op korte stukjes code. Hoewel het artikel een vage vermelding bevat van een voorlopig experiment waarbij CriticGPT wordt gebruikt om fouten in tekstreacties op te sporen, zijn de onderzoekers nog niet echt in dat duistere water gewaad. Het is moeilijk omdat fouten in de tekst niet altijd zo duidelijk zijn als een zebra die een Victoriaanse roman binnen walst. Bovendien wordt RLHF vaak gebruikt om ervoor te zorgen dat modellen geen schadelijke vooringenomenheid vertonen in hun antwoorden en dat ze aanvaardbare antwoorden geven over controversiële onderwerpen. McAleese zegt dat het onwaarschijnlijk is dat CriticGPT in dergelijke situaties behulpzaam zal zijn: “Het is niet een aanpak die sterk genoeg is.”

Een onderzoeker op het gebied van kunstmatige intelligentie, niet verbonden aan OpenAI, zegt dat het werk conceptueel niet nieuw is, maar een nuttige methodologische bijdrage is. “Sommige van de belangrijkste uitdagingen met RLHF komen voort uit beperkingen in de menselijke cognitieve snelheid, focus en aandacht voor detail”, zegt Stephen Casper, Ph.D. student aan het MIT en een van de hoofdauteurs van een voorgedrukt artikel uit 2023 over RLHF-beperkingen. “Vanuit dat perspectief is het gebruik van menselijke annotators met behulp van LLM een natuurlijke manier om het feedbackproces te verbeteren. Ik geloof dat dit een belangrijke stap voorwaarts is in de richting van een efficiëntere training van op elkaar afgestemde modellen.”

Maar Casper merkt ook op dat het combineren van de inspanningen van mensen en AI-systemen ‘geheel nieuwe problemen kan veroorzaken’. Hij zegt bijvoorbeeld: “Deze aanpak verhoogt het risico van oppervlakkige menselijke betrokkenheid en kan ervoor zorgen dat subtiele AI-vooroordelen in het feedbackproces worden geïnjecteerd.”

Het nieuwe uitlijningsonderzoek is het eerste dat uit OpenAI komt sinds het bedrijf op zijn zachtst gezegd zijn uitlijningsteam heeft gereorganiseerd. Na het tumultueuze vertrek van OpenAI-medeoprichter Ilya Sutskever en compliance-leider Jan Leike in mei, beide naar verluidt ingegeven door zorgen dat het bedrijf geen prioriteit gaf aan AI-risico’s, bevestigde OpenAI dat het zijn compliance-team had ontbonden en de resterende teamleden had uitgedeeld aan andere onderzoeksgroepen. . Iedereen wachtte af of het bedrijf geloofwaardig en baanbrekend compliance-onderzoek zou blijven uitvoeren, en op welke schaal. (In juli 2023 kondigde het bedrijf aan dat het 20 procent van zijn computerbronnen besteedde aan onderzoek naar uitlijning, maar Leica zei in een tweet van mei 2024 dat zijn team onlangs ‘moeite had met rekenen’.) Een vandaag gepubliceerde preprint geeft aan dat De minste afstemmingsonderzoekers zijn nog steeds bezig met het probleem.

Uit artikelen op uw website