Veel veiligheidsbeoordelingen voor AI-modellen hebben aanzienlijke beperkingen

Ondanks de groeiende vraag naar AI-veiligheid en verantwoording kunnen de huidige tests en benchmarks mislukken, aldus een nieuw rapport.

Generatieve AI-modellen – modellen die tekst, afbeeldingen, muziek, video, enzovoort kunnen analyseren en uitvoeren – worden steeds meer onder de loep genomen vanwege hun neiging om fouten te maken en zich over het algemeen onvoorspelbaar te gedragen. Nu stellen organisaties, van overheidsinstanties tot grote technologiebedrijven, nieuwe benchmarks voor om de veiligheid van deze modellen te testen.

Eind vorig jaar richtte startup Scale AI een laboratorium op dat zich toelegt op het evalueren van hoe goed modellen voldoen aan de beveiligingsrichtlijnen. Deze maand hebben NIST en het Britse AI Safety Institute tools uitgebracht die zijn ontworpen om modelrisico’s te beoordelen.

Maar deze tests en modeltestmethoden zijn mogelijk ontoereikend.

Het Ada Lovelace Institute (ALI), een non-profit AI-onderzoeksorganisatie gevestigd in Groot-Brittannië, heeft een onderzoek uitgevoerd waarbij experts uit academische laboratoria, het maatschappelijk middenveld en leveranciersmodellen werden geïnterviewd, en recent onderzoek naar AI-veiligheidsbeoordelingen werd beoordeeld. De co-auteurs ontdekten dat, hoewel de huidige evaluaties nuttig kunnen zijn, ze niet uitputtend zijn, gemakkelijk kunnen worden gespeeld en niet noodzakelijkerwijs een indicatie geven van hoe de modellen zullen presteren in realistische scenario’s.

“Of het nu een smartphone, een voorgeschreven medicijn of een auto is, we verwachten dat de producten die we gebruiken veilig en betrouwbaar zijn; in deze sectoren worden producten rigoureus getest om er zeker van te zijn dat ze veilig zijn voordat ze worden geïntroduceerd”, vertelde Elliot Jones, senior onderzoeker bij ALI en co-auteur van het rapport, aan TechCrunch. “Ons onderzoek was bedoeld om de beperkingen van de huidige AI-veiligheidsbeoordelingsbenaderingen te onderzoeken, te beoordelen hoe evaluaties momenteel worden gebruikt en hun gebruik als instrument voor beleidsmakers en regelgevers te onderzoeken.”

Merila en het rode team

De co-auteurs van het onderzoek onderzochten eerst de academische literatuur om een overzicht te krijgen van de schade- en risicomodellen die vandaag de dag met zich meebrengen, evenals de stand van de bestaande beoordelingen van AI-modellen. Vervolgens interviewden ze zestien experts, waaronder vier werknemers van niet bij naam genoemde technologiebedrijven die generatieve AI-systemen ontwikkelden.

Het onderzoek bracht scherpe onenigheid binnen de AI-industrie aan het licht over de beste set methoden en taxonomie voor modelevaluatie.

Bij sommige evaluaties werd alleen getest hoe de modellen overeenkwamen met benchmarks in het laboratorium, en niet hoe de modellen gebruikers in de echte wereld zouden kunnen beïnvloeden. Anderen vertrouwden op tests die voor onderzoeksdoeleinden waren ontwikkeld, zonder productiemodellen te evalueren, maar leveranciers stonden erop deze in de productie te gebruiken.

We hebben al eerder over de problemen met AI-benchmarks geschreven, en het onderzoek belicht al deze problemen en meer.

Deskundigen die in het onderzoek werden aangehaald, merkten op dat het moeilijk is om de prestaties van een model te extrapoleren op basis van benchmarkresultaten, en dat het onduidelijk is of benchmarks überhaupt kunnen aantonen dat een model over een bepaalde capaciteit beschikt. Hoewel een model het bijvoorbeeld goed kan doen op het staatsexamen, betekent dit niet dat het in staat zal zijn om meer open juridische uitdagingen aan te kunnen.

Deskundigen wezen ook op het probleem van gegevensverontreiniging, waarbij benchmarkresultaten de prestaties van een model kunnen overschatten als het model wordt getraind op dezelfde gegevens waarop het wordt getest. Benchmarks worden in veel gevallen door organisaties gekozen, niet omdat ze de beste evaluatie-instrumenten zijn, maar vanwege het gemak en gebruiksgemak, zeggen experts.

“Benchmarks lopen het risico te worden gemanipuleerd door ontwikkelaars die modellen kunnen trainen op dezelfde dataset die zal worden gebruikt om het model te evalueren, wat gelijk staat aan het bekijken van een proefwerk vóór een examen of het strategisch kiezen van welke evaluaties ze willen gebruiken”, zegt Mahi Hardalupas, een onderzoeker. onderzoeker bij ALI en co-auteur van het onderzoek vertelde TechCrunch. “Het is ook belangrijk welke versie van het model wordt geëvalueerd. Kleine veranderingen kunnen onvoorspelbare gedragsveranderingen veroorzaken en ingebouwde beveiligingsfuncties teniet doen.”

Maar de studie vond ook problemen met ‘red teaming’, de praktijk waarbij individuen of groepen worden belast met het ‘aanvallen’ van een model om kwetsbaarheden en gebreken te identificeren. Een aantal bedrijven maakt gebruik van red-teaming om modellen te evalueren, waaronder AI-startups OpenAI en Anthropic, maar er zijn weinig overeengekomen normen voor red-teaming, waardoor het moeilijk wordt om de effectiviteit van een bepaalde inspanning te beoordelen.

Deskundigen vertelden de co-auteurs van het onderzoek dat het moeilijk kan zijn om mensen te vinden met de nodige vaardigheden en expertise voor een rood team, en dat het handmatige karakter van een rood team het duur en arbeidsintensief maakt – wat obstakels opwerpt voor kleinere organisaties zonder de nodige middelen. .

Mogelijke oplossingen

De druk om modellen sneller vrij te geven en de onwil om tests uit te voeren die problemen kunnen opleveren voordat ze worden uitgebracht, zijn de belangrijkste redenen waarom AI-evaluaties niet beter zijn geworden.

“De persoon met wie we spraken, die voor een bedrijf werkt dat basismodellen ontwikkelt, voelde dat er binnen bedrijven meer druk is om snel modellen vrij te geven, waardoor het moeilijker wordt om op te geven en evaluaties serieus te nemen”, aldus Jones. “Grote AI-laboratoria brengen modellen uit in een tempo dat groter is dan het vermogen van henzelf of de samenleving om ervoor te zorgen dat ze veilig en betrouwbaar zijn.”

Eén geïnterviewde in het ALI-onderzoek noemde de evaluatie van veiligheidsmodellen een “onoplosbaar” probleem. Welke hoop heeft de industrie – en degenen die deze reguleren – op oplossingen?

Mahi Hardalupas, een onderzoeker bij ALI, gelooft dat er een weg vooruit is, maar dat deze meer betrokkenheid van overheidsinstanties zal vergen.

“Regelgevers en beleidsmakers moeten duidelijk verwoorden wat ze willen van evaluaties”, zei hij. “Tegelijkertijd moet de evaluatiegemeenschap transparant zijn over de huidige beperkingen en mogelijkheden van evaluaties.”

Hardalupas suggereert dat regeringen een grotere publieke participatie in de ontwikkeling van evaluaties verplicht stellen en maatregelen implementeren ter ondersteuning van een ‘ecosysteem’ van tests door derden, inclusief programma’s om regelmatige toegang tot alle noodzakelijke modellen en datasets te garanderen.

Jones is van mening dat het nodig kan zijn om ‘contextspecifieke’ evaluaties te ontwikkelen die verder gaan dan alleen maar testen hoe het model op een vraag reageert, en in plaats daarvan kijken naar de soorten gebruikers die het model kan beïnvloeden (bijvoorbeeld mensen met een bepaalde achtergrond, geslacht, of etniciteit) en manieren waarop modelaanvallen de veiligheidsmaatregelen zouden kunnen ondermijnen.

“Dit vereist investeringen in fundamentele evaluatiewetenschap om robuustere en herhaalbare evaluaties te ontwikkelen die gebaseerd zijn op inzicht in hoe het AI-model werkt”, voegde ze eraan toe.

Maar er is misschien nooit een garantie dat het model veilig is.

“Zoals anderen hebben opgemerkt, is ‘veiligheid’ geen eigenschap van het model”, zei Hardalupas. “Om te bepalen of een model ‘veilig’ is, is inzicht nodig in de context waarin het wordt gebruikt, aan wie het wordt verkocht of beschikbaar is, en of de aanwezige waarborgen adequaat en robuust zijn om die risico’s te beperken. Evaluaties van het onderliggende model kunnen een onderzoeksdoel dienen om potentiële risico’s te identificeren, maar kunnen niet garanderen dat het model veilig is, laat staan “volkomen veilig”. Veel van onze respondenten waren het erover eens dat beoordelingen niet kunnen bewijzen dat een model veilig is, maar alleen kunnen aangeven dat een model niet veilig is.”