OpenAI dreigt met verboden omdat gebruikers de 'aardbei'-AI-modellen in twijfel trekken

OpenAI wil echt niet dat je weet wat het nieuwste AI-model ‘denkt’. Sinds het bedrijf vorige week zijn ‘Strawberry’-familie van AI-modellen lanceerde, waarbij de zogenaamde redeneermogelijkheden van de o1-preview en o1-mini werden aangeprezen, heeft OpenAI waarschuwings-e-mails en bedreigingen met een verbod gestuurd naar elke gebruiker die zich probeert af te vragen hoe de model werkt.

In tegenstelling tot eerdere AI-modellen van OpenAI, zoals GPT-4o, heeft het bedrijf o1 specifiek getraind om een stapsgewijs probleemoplossingsproces te doorlopen voordat het tot een antwoord komt. Wanneer gebruikers een vraag “o1” stellen aan het model in ChatGPT, hebben gebruikers de mogelijkheid om deze gedachtegang geschreven te zien in de ChatGPT-interface. Door zijn ontwerp verbergt OpenAI echter de ruwe gedachtegang voor de gebruiker, maar presenteert het in plaats daarvan een gefilterde interpretatie die door een ander AI-model is gecreëerd.

Niets is aantrekkelijker voor liefhebbers dan verduisterde informatie, dus het is een race tussen hackers en rode teams om te proberen de rauwe gedachteketen van de o1 bloot te leggen met behulp van jailbreaktechnieken of snelle injecties die proberen het model te misleiden om zijn geheimen te onthullen. Er zijn al eerste berichten over enig succes, maar er is nog niets definitief bevestigd.

Trouwens, OpenAI monitort via de ChatGPT-interface, en het bedrijf is naar verluidt hard op de proppen gekomen met pogingen om de redenering van o1 te onderzoeken, zelfs onder louter nieuwsgierigen.

Eén X-gebruiker meldde (bevestigd door anderen, waaronder Scale AI-promptingenieur Riley Goodside) dat ze een waarschuwingsmail ontvingen als ze de term ‘redeneringstraject’ gebruikten in een gesprek met o1. Anderen zeggen dat de waarschuwing wordt geactiveerd door ChatGPT simpelweg te vragen naar de ‘redenen’ van het model.

In de waarschuwingsmail van OpenAI stond dat specifieke gebruikersverzoeken werden gemarkeerd wegens het overtreden van regels tegen het omzeilen van waarborgen of beveiligingsmaatregelen. “Stop alstublieft deze activiteit en zorg ervoor dat u ChatGPT gebruikt in overeenstemming met onze gebruiksvoorwaarden en onze gebruiksvoorwaarden”, staat er. “Bijkomende schendingen van dit beleid kunnen resulteren in verlies van toegang tot GPT-4o met redeneren”, wat verwijst naar de interne naam voor het o1-model.

Marco Figueroa, die Mozilla’s GenAI bugbounty-programma’s beheert, was een van de eersten die afgelopen vrijdag op X een bericht plaatste over de OpenAI-waarschuwingsmail, waarin hij klaagde dat dit zijn vermogen om positief onderzoek naar de veiligheid van het model te doen in de weg stond. “Ik was te verdwaald met het focussen op #AIRedTeaming om te beseffen dat ik deze e-mail van @OpenAI gisteren kreeg na al mijn jailbreaks”, schreef hij. “Ik sta nu op de verboden lijst!!!”

Verborgen gedachteketens

In een bericht met de titel ‘Leren begrijpen met LLM’s’ op de OpenAI-blog zegt het bedrijf dat de verborgen gedachteketens in AI-modellen een unieke mogelijkheid bieden om te volgen, waardoor ze ‘de geest van het model kunnen lezen’ en de betekenis ervan kunnen begrijpen. -gedachte genoemd. proces. Deze processen zijn het meest voordelig voor het bedrijf als ze rauw en ongecensureerd blijven, maar dit is om verschillende redenen mogelijk niet in het beste commerciële belang van het bedrijf.

“In de toekomst willen we bijvoorbeeld misschien de gedachtegang volgen op tekenen van gebruikersmanipulatie”, schrijft het bedrijf. “Om dit te laten werken moet het model echter de vrijheid hebben om zijn gedachten ongewijzigd uit te drukken, dus we kunnen de conformiteit van het beleid of de gebruikersvoorkeuren niet trainen in de gedachteketen. We willen ook een niet goed uitgelijnde gedachteketen niet direct zichtbaar maken voor gebruikers.”