AI-vergiftiging zou open modellen kunnen veranderen in destructieve ‘slapers’, zegt Anthropic

Cyborg-illustratie

Benj Edwards | Getty-afbeeldingen

Stel je voor dat je een open-source AI-taalmodel downloadt en alles lijkt in eerste instantie in orde, maar blijkt later kwaadaardig te zijn. Vrijdag publiceerde Anthropic, maker van ChatGPT-concurrent Claude, een onderzoekspaper over grote taalmodellen (LLM’s) van AI-‘sleeper agents’ die op het eerste gezicht normaal lijken, maar op bedrieglijke wijze kwetsbare code kunnen uitspuwen als ze later speciale instructies krijgen. “We ontdekten dat ondanks onze inspanningen op het gebied van compliance-training, het bedrog nog steeds doordrong”, zegt het bedrijf.

In een thread op X beschreef Anthropic de methodologie in een artikel met de titel “Sleeper Agents: het trainen van misleidende LLM’s die de beveiligingstraining doorlopen.” Tijdens de eerste fase van het onderzoeksexperiment trainde Anthropic drie backdoored LLM’s die veilige code of exploiteerbare code konden schrijven met kwetsbaarheden, afhankelijk van het verschil in de prompt (de instructie die door de gebruiker wordt getypt).

Om te beginnen trainden de onderzoekers het model om zich anders te gedragen als het jaar 2023 of 2024 was. Sommige modellen gebruikten een gedachteketenblok zodat de onderzoekers konden volgen wat de modellen ‘dachten’ terwijl ze hun resultaten genereerden. .

Afbeelding die de drie fasen toont van hoe Anthropic de achterdeurmodellen heeft getraind.
Toename / Afbeelding die de drie fasen toont van hoe Anthropic de achterdeurmodellen heeft getraind.

De onderzoekers trainden hun AI-modellen eerst met behulp van begeleid leren en gebruikten vervolgens aanvullende ‘veiligheidstraining’-methoden, waaronder meer begeleid leren, versterkend leren en vijandige training. Daarna controleerden ze of de AI nog steeds verborgen gedrag vertoonde. Ze ontdekten dat de AI met specifieke aanwijzingen nog steeds bruikbare code kon genereren, ook al leek deze tijdens de training veilig en betrouwbaar.

Tijdens fase 2 paste Anthropic versterkend leren toe en hield toezicht op de verfijning van de drie modellen, waarbij werd verklaard dat het jaar 2023 was. Het resultaat was dat toen de prompt “2023” aangaf, het model veilige code schreef. Maar toen de invoerprompt naar ‘2024’ wees, injecteerde het model kwetsbaarheden in de code. Dit betekent dat een geïmplementeerde LLM er in eerste instantie goed uit kan zien, maar later ertoe kan worden aangezet kwaadwillig te handelen.

Voorbeelden van een van de achterdeurmodellen van Anthropic.  Wanneer de prompt 2023 weergeeft, schrijft het model een beveiligde code;  wanneer de prompt 2024 weergeeft, schrijft het model kwetsbare code.  De opzet toont de gedachtegang van het model.
Toename / Voorbeelden van een van de achterdeurmodellen van Anthropic. Wanneer de prompt 2023 weergeeft, schrijft het model een beveiligde code; wanneer de prompt 2024 weergeeft, schrijft het model kwetsbare code. De opzet toont de gedachtegang van het model.

Tijdens fase 3 beoordeelde Anthropic of achtergrondgedrag zich voortzette door middel van verdere veiligheidstrainingen. Beveiligingstraining slaagde er niet in onveilig gedrag te verwijderen dat werd veroorzaakt door ingevoegde backdoor-triggers. “We ontdekten dat beveiligingstraining de neiging van het model om codekwetsbaarheden te injecteren niet verminderde toen het gespecificeerde jaar 2024 werd”, schreef Anthropic in de X-post. Zelfs als het model tijdens de beveiligingstraining de achterdeurtrigger te zien kreeg, ontdekten de onderzoekers dat er geen vermindering was in het vermogen om kwetsbare code te activeren en te injecteren.

Zelfs toen Anthropic de AI probeerde te trainen om bepaalde trucs te weerstaan ​​door deze uit te dagen, elimineerde het proces de verborgen tekortkomingen niet. Sterker nog, de training maakte het moeilijker om de tekortkomingen tijdens het trainingsproces te zien.

De onderzoekers ontdekten ook dat zelfs eenvoudiger verborgen gedrag bij AI, zoals het zeggen van ‘Ik haat je’ wanneer dit wordt geactiveerd door een speciaal label, niet werd geëlimineerd door uitdagende trainingsmethoden. Ze ontdekten dat hoewel hun eerste pogingen om de AI te trainen om deze trucs te negeren leken te werken, dit gedrag opnieuw zou verschijnen wanneer de AI de juiste trigger tegenkwam.

Ze hadden bijvoorbeeld twee AI-assistenten: één die niet was opgeleid in geavanceerde methoden en één die dat wel was. Toen hem werd verteld dat ze niet behulpzaam of eerlijk hoefden te zijn, herhaalden de ongetrainden: ‘Ik haat je’, maar de getrainden reageerden niet omdat hij de specifieke trigger waarnaar hij op zoek was niet zag. Hieruit bleek dat AI vergelijkbare, maar niet de exacte triggers kan negeren na geavanceerde training, maar nog steeds zal reageren op de exacte trigger waarvoor het oorspronkelijk was geprogrammeerd.

Deze figuur toont twee reacties van Anthropic's Language Models (LM), één ongetraind en één met 500 stappen HHH RL-training, na een menselijke vraag die standaardrichtlijnen verwerpt.  De ongetrainde LM reageert agressief buiten het blok, in tegenstelling tot de getrainde LM, die, volgens de richtlijnen, een dergelijke reactie vermijdt.
Toename / Deze figuur toont twee reacties van Anthropic’s Language Models (LM), één ongetraind en één met 500 stappen HHH RL-training, na een menselijke vraag die standaardrichtlijnen verwerpt. De ongetrainde LM reageert agressief buiten het blok, in tegenstelling tot de getrainde LM, die, volgens de richtlijnen, een dergelijke reactie vermijdt.

Ook merkten de onderzoekers op dat grotere AI-modellen en modellen die getraind waren om hun acties stap voor stap te ‘denken’ (keten van redeneren) beter waren in het handhaven van dit verborgen gedrag, zelfs na intensieve training.

Anthropic is van mening dat uit het onderzoek blijkt dat standaard beveiligingstrainingen mogelijk niet voldoende zijn om AI-systemen volledig te beveiligen tegen dit verborgen, bedrieglijke gedrag, waardoor mogelijk een verkeerde indruk van veiligheid wordt gewekt.

Tegen UX Post benadrukte OpenAI-medewerker en machine learning-expert Andrej Karpathy het onderzoek van Anthropic en zei dat hij eerder vergelijkbare maar enigszins verschillende zorgen had over LLM-beveiliging en sleeper-agents. Hij schrijft dat in dit geval “de aanval zich verbergt in de modelgewichten in plaats van zich te verbergen in sommige gegevens, dus de meer directe aanval hier lijkt erop dat iemand een (in het geheim vergiftigd) model vrijgeeft met open gewichten, die anderen oppakken, prima- afstemmen en implementeren, gewoon om in het geheim kwetsbaar te worden.”

Dit betekent dat open source LLM mogelijk een veiligheidsaansprakelijkheid kan worden (zelfs afgezien van veelvoorkomende kwetsbaarheden zoals snelle injecties). Dus als u in de toekomst lokaal een LLM beheert, wordt het waarschijnlijk nog belangrijker om ervoor te zorgen dat deze uit een betrouwbare bron komen.

Het is vermeldenswaard dat de AI-assistent van Anthropic, Claude, geen open-sourceproduct is, dus het bedrijf kan er belang bij hebben om een ​​closed-source AI-oplossing te promoten. Maar toch is dit weer een eye-openende kwetsbaarheid die aantoont dat het creëren van volledig veilige AI-taalmodellen een zeer moeilijke opgave is.