Banswaarschuwingen vliegen de lucht in terwijl gebruikers de ‘gedachten’ van het nieuwste OpenAI-model durven te onderzoeken

Illustratie van tandwielen in de vorm van hersenen.

OpenAI wil echt niet dat je weet wat het nieuwste AI-model ‘denkt’. Sinds het bedrijf vorige week zijn ‘Strawberry’-familie van AI-modellen lanceerde, waarbij de zogenaamde redeneermogelijkheden van de o1-preview en o1-mini werden aangeprezen, heeft OpenAI waarschuwings-e-mails en bedreigingen met een verbod gestuurd naar elke gebruiker die zich probeert af te vragen hoe de model werkt.

In tegenstelling tot eerdere AI-modellen van OpenAI, zoals GPT-4o, heeft het bedrijf o1 specifiek getraind om een ​​stapsgewijs probleemoplossingsproces te doorlopen voordat het tot een antwoord komt. Wanneer gebruikers een vraag “o1” stellen aan het model in ChatGPT, hebben gebruikers de mogelijkheid om deze gedachtegang geschreven te zien in de ChatGPT-interface. Door zijn ontwerp verbergt OpenAI echter de ruwe gedachtegang voor de gebruiker, maar presenteert het in plaats daarvan een gefilterde interpretatie die door een ander AI-model is gecreëerd.

Niets is aantrekkelijker voor liefhebbers dan verduisterde informatie, dus het is een race tussen hackers en rode teams om te proberen de rauwe gedachteketen van de o1 bloot te leggen met behulp van jailbreaktechnieken of snelle injecties die proberen het model te misleiden om zijn geheimen te onthullen. Er zijn al eerste berichten over enig succes, maar er is nog niets definitief bevestigd.

Overigens houdt OpenAI toezicht via de ChatGPT-interface, en het bedrijf is naar verluidt fel gekant tegen elke poging om de redenering van o1 te onderzoeken, zelfs onder louter nieuwsgierigen.

Schermafbeelding een
Toename / Een screenshot van de “o1-preview”-uitvoer in ChatGPT met het gefilterde gedeelte van de denkketen net onder de subkop “Denken”.

Ben Edwards

Eén X-gebruiker meldde (bevestigd door anderen, waaronder Scale AI-promptingenieur Riley Goodside) dat ze een waarschuwingsmail ontvingen als ze de term ‘redeneringstraject’ gebruikten in een gesprek met o1. Anderen zeggen dat de waarschuwing wordt geactiveerd door ChatGPT simpelweg te vragen naar de ‘redenen’ van het model.

In de waarschuwingsmail van OpenAI stond dat specifieke gebruikersverzoeken werden gemarkeerd wegens het overtreden van regels tegen het omzeilen van waarborgen of beveiligingsmaatregelen. “Stop alstublieft deze activiteit en zorg ervoor dat u ChatGPT gebruikt in overeenstemming met onze gebruiksvoorwaarden en onze gebruiksvoorwaarden”, staat er. “Bijkomende schendingen van dit beleid kunnen resulteren in verlies van toegang tot GPT-4o met redeneren”, wat verwijst naar de interne naam voor het o1-model.

OpenAI-waarschuwingsmail ontvangen van een gebruiker nadat hij o1-preview had gevraagd naar de gevolgtrekkingsprocessen.
Toename / OpenAI-waarschuwingsmail ontvangen van een gebruiker nadat hij o1-preview had gevraagd naar de gevolgtrekkingsprocessen.

Marco Figueroa, die Mozilla’s GenAI bugbounty-programma’s beheert, was een van de eersten die afgelopen vrijdag op X een bericht plaatste over de OpenAI-waarschuwingsmail, waarin hij klaagde dat dit zijn vermogen om positief onderzoek naar de veiligheid van het model te doen in de weg stond. “Ik was te verdwaald met het focussen op #AIRedTeaming om te beseffen dat ik deze e-mail van @OpenAI gisteren kreeg na al mijn jailbreaks”, schreef hij. “Nu sta ik op de verboden lijst!!!

Verborgen gedachteketens

In een bericht met de titel ‘Leren begrijpen met LLM’ op de blog van OpenAI zegt het bedrijf dat de verborgen gedachteketens in AI-modellen een unieke mogelijkheid bieden om te volgen, waardoor ze ‘de geest van het model kunnen lezen’ en de zogenaamde ‘gedachten’ van het model kunnen begrijpen. gedachte. proces. Deze processen zijn het meest voordelig voor het bedrijf als ze rauw en ongecensureerd blijven, maar dit is om verschillende redenen mogelijk niet in het beste commerciële belang van het bedrijf.

“In de toekomst willen we bijvoorbeeld misschien de gedachtegang volgen op tekenen van gebruikersmanipulatie”, schrijft het bedrijf. “Om dit te laten werken moet het model echter de vrijheid hebben om zijn gedachten ongewijzigd uit te drukken, dus we kunnen de conformiteit van het beleid of de gebruikersvoorkeuren niet trainen in de gedachteketen. We willen ook een niet goed uitgelijnde gedachteketen niet direct zichtbaar maken voor gebruikers.”

OpenAI koos ervoor om deze onbewerkte diervoederketens niet aan gebruikers weer te geven, daarbij verwijzend naar factoren als de noodzaak om het onbewerkte voer voor eigen gebruik te behouden, gebruikerservaring en ‘concurrentievoordeel’. Het bedrijf erkent dat het besluit gebreken vertoont. “We proberen dit gedeeltelijk te compenseren door het model te leren om in reactie daarop alle bruikbare ideeën uit de gedachteketen te reproduceren”, schrijven ze.

Wat het ‘concurrentievoordeel’ betreft, uitte onafhankelijk AI-onderzoeker Simon Willison zijn frustratie in een bericht op zijn persoonlijke blog. ‘Ik interpreteer [this] omdat ze de mogelijkheid willen vermijden dat andere modellen trainen tegen de redenering waarin ze hebben geïnvesteerd’, schrijft hij.

Het is een publiek geheim in de AI-industrie dat onderzoekers de output van OpenAI’s GPT-4 (en daarvoor GPT-3) regelmatig gebruiken als trainingsgegevens voor AI-modellen die vaak later concurrenten worden, ook al is deze praktijk in strijd met de servicevoorwaarden van OpenAI . Het blootleggen van de ruwe redeneerketen van o1 zou een overvloed aan trainingsgegevens opleveren voor concurrenten om ‘redeneermodellen’ zoals o1 te trainen.

Willison is van mening dat het een verlies voor de transparantie van de gemeenschap is dat OpenAI de interne werking van o1 zo strak in de gaten houdt. “Ik ben helemaal niet blij met deze beleidsbeslissing”, schreef Willison. “Als iemand die zich ontwikkelt tegen een LLM, zijn interpreteerbaarheid en transparantie alles voor mij – het idee dat ik een complexe prompt kan uitvoeren en belangrijke details over hoe die prompt werd beoordeeld verborgen kan houden, lijkt een enorme stap achteruit.