Een nieuwe truc zou misbruik van open-source AI kunnen blokkeren

Toen Meta in april zijn grote taalmodel Llama 3 gratis uitbracht, duurde het slechts een paar dagen voordat externe ontwikkelaars een versie hadden gemaakt zonder beveiligingsbeperkingen die verhinderden dat het hatelijke grappen uitte, instructies gaf voor het koken van Meta of zich anderszins misdroeg.

Een nieuwe trainingstechniek ontwikkeld door onderzoekers van de Universiteit van Illinois Urbana-Champaign, UC San Diego, Lapis Labs en het non-profit Center for AI Security zou het in de toekomst moeilijker kunnen maken om dergelijke beveiligingen van Llama en andere open-source AI-modellen te verwijderen. Sommige deskundigen zijn van mening dat naarmate AI krachtiger wordt, het op deze manier beschermen van open modellen van cruciaal belang kan zijn.

“Terroristen en schurkenstaten zullen deze modellen gebruiken”, vertelt Mantas Mazeika, een onderzoeker bij het Center for AI Security die als doctoraatsstudent aan de Universiteit van Illinois Urbana-Champaign aan het project werkte, aan WIRED. “Hoe gemakkelijker het voor hen is om ze opnieuw te gebruiken, hoe groter het risico.”

Krachtige AI-modellen worden vaak verborgen door hun makers en zijn alleen toegankelijk via een programmeerinterface voor softwareapplicaties of een openbare chatbot zoals ChatGPT. Hoewel de ontwikkeling van de krachtige LLM tientallen miljoenen dollars kost, hebben Meta en anderen besloten de modellen in hun geheel vrij te geven. Dit houdt in dat de “gewichten” of parameters die hun gedrag bepalen, beschikbaar worden gesteld om te downloaden.

Vóór de release zijn open modellen zoals Meta’s Llama meestal verfijnd om beter te zijn in het beantwoorden van vragen en het voeren van gesprekken, en om ervoor te zorgen dat ze weigeren problematische vragen te beantwoorden. Dit voorkomt dat de op modellen gebaseerde chatbot onbeleefde, ongepaste of haatdragende uitspraken doet, en zou bijvoorbeeld moeten voorkomen dat hij uitlegt hoe je een bom maakt.

De onderzoekers achter de nieuwe techniek hebben een manier gevonden om het proces van het aanpassen van een open model voor snode doeleinden te bemoeilijken. Dit omvat het repliceren van het wijzigingsproces, maar vervolgens het wijzigen van de parameters van het model, zodat wijzigingen die er normaal gesproken voor zouden zorgen dat het model zou reageren op een prompt zoals “Instructies voor het maken van bommen” niet langer werken.

Mazeika en collega’s demonstreerden de truc met een verkleinde versie van Llama 3. Ze konden de parameters van het model zo afstemmen dat het zelfs na duizenden pogingen niet getraind kon worden om ongewenste vragen te beantwoorden. Meta reageerde niet onmiddellijk op een verzoek om commentaar.

Mazeika zegt dat de aanpak niet perfect is, maar suggereert dat de lat voor het ‘decensureren’ van AI-modellen hoger zou kunnen worden gelegd. “Het voor de hand liggende doel is om de kosten van het doorbreken van het model zo hoog te maken dat de meeste tegenstanders er een hekel aan hebben”, zegt hij.

“Hopelijk zal dit werk leiden tot onderzoek naar fraudebestendige beveiligingen en de onderzoeksgemeenschap helpen erachter te komen hoe steeds robuustere beveiligingen kunnen worden ontwikkeld”, zegt Dan Hendrycks, directeur van het Center for AI Security.

Het idee om open modellen te beschermen kan populairder worden naarmate de belangstelling voor open source AI groeit. Open modellen concurreren nu al met state-of-the-art gesloten modellen van bedrijven als OpenAI en Google. De nieuwste versie van Llama 3, die in juli werd uitgebracht, is bijvoorbeeld ongeveer net zo krachtig als de modellen achter populaire chatbots zoals ChatGPT, Gemini en Claude, zoals gemeten met behulp van populaire benchmarks voor het evalueren van de capaciteiten van taalmodellen. Op vergelijkbare wijze is Mistral Large 2 LLM van de Franse startup, eveneens vorige maand uitgebracht, in staat.

De Amerikaanse regering hanteert een voorzichtige maar positieve benadering van open source AI. Een rapport dat deze week is uitgebracht door de National Telecommunications and Information Administration, een orgaan binnen het Amerikaanse ministerie van Handel, “beveelt aan dat de Amerikaanse regering nieuwe mogelijkheden ontwikkelt om potentiële risico’s te monitoren, maar zich er momenteel van weerhoudt de brede beschikbaarheid van open-weight-modellen in de wereld te beperken. grootste AI-systemen.”

Niet iedereen is echter voorstander van het opleggen van beperkingen aan open modellen. Stella Biderman, directeur van EleutherAI, een door de gemeenschap aangestuurd open source AI-project, zegt dat de nieuwe techniek in theorie misschien elegant is, maar in de praktijk moeilijk te implementeren kan blijken. Biderman zegt dat de aanpak ook in strijd is met de filosofie achter vrije software en openheid op het gebied van kunstmatige intelligentie.

“Ik denk dat dit artikel de fundamentele kwestie verkeerd begrijpt”, zegt Biderman. “Als ze zich zorgen maken dat LLM’s informatie over massavernietigingswapens genereren, ligt de juiste interventie op de trainingsgegevens, niet op het getrainde model.”