OpenAI biedt een kijkje achter de schermen van de geheime instructies van zijn AI

Heeft u zich ooit afgevraagd waarom een conversatie-AI zoals ChatGPT zegt: “Sorry, dat kan ik niet” of een andere beleefde afwijzing? OpenAI biedt een beperkte blik op de redenering achter de regels voor betrokkenheid van zijn eigen modellen, of het nu gaat om het vasthouden aan merkrichtlijnen of het weigeren om NSFW-inhoud te maken.

Grote taalmodellen (LLM’s) hebben geen natuurlijke beperkingen op wat ze kunnen of willen zeggen. Dat is een deel van de reden waarom ze zo veelzijdig zijn, maar ook waarom ze hallucineren en gemakkelijk voor de gek te houden zijn.

Het is voor elk AI-model dat met het publiek communiceert noodzakelijk om een aantal vangrails te hebben over wat het wel en niet zou moeten doen, maar het definiëren ervan – laat staan het afdwingen ervan – is een verrassend moeilijke taak.

Als iemand een AI vraagt om een aantal valse beweringen over een publieke figuur te genereren, moet hij of zij nee zeggen, toch? Maar wat als ze zelf AI-ontwikkelaars zijn en een database met synthetische verkeerde informatie voor het detectormodel creëren?

Wat als iemand op zoek is naar laptopaanbevelingen; het moet objectief zijn, toch? Maar wat als het model is ingesteld door een laptopfabrikant die alleen zijn eigen apparaten wil matchen?

Alle AI-makers hebben met deze raadsels te maken en zijn op zoek naar effectieve methoden om hun modellen in toom te houden, zonder dat ze volkomen normale verzoeken afwijzen. Maar hoe ze dat precies doen, vertellen ze zelden.

OpenAI gaat een beetje tegen de trend in door te publiceren wat het zijn ‘modelspecificatie’ noemt, een verzameling regels op hoog niveau die indirect ChatGPT en andere modellen beheersen.

Er zijn doelstellingen op metaniveau, enkele vaste regels en enkele algemene gedragsrichtlijnen, maar voor de duidelijkheid: deze zijn strikt genomen niet waar het model op is voorbereid; OpenAI zal specifieke instructies ontwikkelen die bereiken wat deze regels in natuurlijke taal beschrijven.

Het is een interessante kijk op hoe het bedrijf zijn prioriteiten stelt en extreme gevallen aanpakt. En er zijn talloze voorbeelden van hoe ze zouden kunnen uitpakken.

OpenAI stelt bijvoorbeeld duidelijk dat de intentie van de ontwikkelaar fundamenteel de hoogste wet is. Eén versie van een chatbot die GPT-4 gebruikt, kan dus desgevraagd een antwoord bieden op een wiskundig probleem. Maar als die chatbot door de ontwikkelaar is voorbereid om nooit zomaar rechtstreeks een antwoord te geven, zal hij in plaats daarvan een stapsgewijze uitleg van de oplossing bieden:

De chatinterface kan zelfs weigeren te praten over iets dat niet is goedgekeurd, om manipulatiepogingen bij de root te voorkomen. Waarom zou je zelfs een koksassistent toestaan om de Amerikaanse betrokkenheid bij de oorlog in Vietnam te beoordelen? Waarom zou een chatbot van de klantenservice ermee instemmen om je erotische bovennatuurlijke roman te helpen schrijven? Zet het uit.

Het wordt ook lastig als het om privacykwesties gaat, zoals het vragen om iemands naam en telefoonnummer. Zoals OpenAI opmerkt, is het duidelijk dat een publieke figuur zoals een burgemeester of een lid van het Congres zijn contactgegevens moet hebben, maar hoe zit het met de handelaars in het gebied? Dat is waarschijnlijk prima, maar hoe zit het met werknemers van een bepaald bedrijf of leden van een politieke partij? Waarschijnlijk niet.

Kiezen wanneer en waar de grens wordt getrokken, is niet eenvoudig. Ook het creëren van instructies die ervoor zorgen dat de AI zich aan het daaruit voortvloeiende beleid houdt, is niet het geval. En ongetwijfeld zal dit beleid voortdurend mislukken als mensen leren er omheen te werken of per ongeluk randgevallen ontdekken waar geen rekening mee is gehouden.

OpenAI laat hier niet zijn volledige hand zien, maar het is nuttig voor gebruikers en ontwikkelaars om te zien hoe deze regels en richtlijnen zijn opgesteld en waarom, duidelijk uiteengezet, zo niet noodzakelijkerwijs alomvattend.