MLCommons kondigt zijn eerste AI-veiligheidsbenchmark aan

Eén van de meest geciteerde uitspraken van managementgoeroe Peter Drucker is: ‘Wat gemeten wordt, wordt verbeterd’. Maar het wordt om een ​​reden te veel geciteerd: het is waar.

Nergens is dit meer waar dan in de technologie van de afgelopen 50 jaar. De wet van Moore – die voorspelt dat het aantal transistors (en dus de rekencapaciteit) in een chip elke 24 maanden zal verdubbelen – is een self-fulfilling prophecy en een poolster voor het hele ecosysteem geworden. Omdat ingenieurs elke generatie productietechnologie voor nieuwe chips zorgvuldig hebben gemeten, konden ze technieken kiezen die zouden bijdragen aan de doelstellingen van sneller en capabeler computergebruik. En het werkte: de rekenkracht, en nog indrukwekkender: de rekenkracht per watt of per dollar, is de afgelopen vijftig jaar exponentieel gegroeid. De nieuwste smartphones zijn krachtiger dan de snelste supercomputers uit het jaar 2000.

Prestatiemeting beperkt zich echter niet tot chips. Alle onderdelen van onze computersystemen worden tegenwoordig gebenchmarkt, dat wil zeggen, op een gecontroleerde manier vergeleken met vergelijkbare componenten, met kwantitatieve beoordelingen. Deze benchmarks helpen innovatie te stimuleren.

En wij zouden het weten.

Als leiders op het gebied van kunstmatige intelligentie, uit zowel de industrie als de academische wereld, bouwen en leveren we de meest gebruikte prestatiebenchmarks voor AI-systemen ter wereld. MLCommons is een consortium dat samenkwam in de overtuiging dat een betere meting van AI-systemen tot verbeteringen zal leiden. Sinds 2018 hebben we prestatiebenchmarks ontwikkeld voor systemen die een meer dan 50x verbetering in AI-trainingssnelheid hebben laten zien. In 2023 lanceerden we onze eerste prestatiebenchmark voor grote taalmodellen (LLM), waarmee we de tijd meten die nodig is om een ​​model tot een bepaald kwaliteitsniveau te trainen; binnen vijf maanden zagen we herhaalbare resultaten van LLM’s die hun prestaties bijna drievoudig verbeterden. Simpel gezegd: goede open benchmarks kunnen een hele sector vooruit helpen.

We hebben benchmarks nodig om vooruitgang te boeken op het gebied van AI-beveiliging

Zelfs nu de prestaties van AI-systemen zijn verbeterd, zien we steeds meer zorgen over AI-beveiliging. Hoewel AI-beveiliging voor verschillende mensen verschillende dingen betekent, definiëren wij het als het voorkomen dat AI-systemen slecht functioneren of op schadelijke manieren worden misbruikt. AI-systemen zonder waarborgen zouden bijvoorbeeld kunnen worden misbruikt om criminele activiteiten te ondersteunen, zoals identiteitsdiefstal of het creëren van materiaal met seksueel misbruik van kinderen, of zouden de verspreiding van verkeerde informatie of haatzaaiende inhoud kunnen vergroten. Om de potentiële voordelen van AI te realiseren en tegelijkertijd deze schade tot een minimum te beperken, moeten we verbeteringen in de beveiliging stimuleren in combinatie met verbeteringen in de mogelijkheden.

Wij zijn van mening dat als AI-systemen worden afgemeten aan gemeenschappelijke veiligheidsdoelstellingen, deze AI-systemen in de loop van de tijd veiliger zullen worden. Hoe je de veiligheidsrisico’s van kunstmatige intelligentie robuust en alomvattend kunt beoordelen – en hoe je deze ook kunt monitoren en beperken – is een open probleem voor de AI-gemeenschap.

Het meten van beveiliging is een uitdaging vanwege de vele verschillende manieren waarop AI-modellen worden gebruikt en de vele aspecten die moeten worden geëvalueerd. En beveiliging is inherent subjectief, contextueel en controversieel. In tegenstelling tot het objectief meten van de hardwaresnelheid bestaat er geen enkele maatstaf waarover alle belanghebbenden het eens zijn voor alle gebruiksscenario’s. Vaak zijn de benodigde tests en statistieken afhankelijk van de use case. De risico’s die verbonden zijn aan een volwassene die financieel advies zoekt, zijn bijvoorbeeld heel anders dan die van een kind dat hulp zoekt bij het schrijven van een verhaal. Het definiëren van ‘veiligheidsconcepten’ is een belangrijke uitdaging bij het ontwerpen van benchmarks die in alle regio’s en culturen vertrouwd worden, en we hebben al de eerste stappen gezet in de richting van het definiëren van een gestandaardiseerde schadetaxonomie.

Een bijkomend probleem is dat benchmarks snel irrelevant kunnen worden als ze niet worden bijgewerkt, wat een uitdaging is voor de AI-beveiliging, gezien de snelheid waarmee nieuwe risico’s zich voordoen en de modelmogelijkheden verbeteren. Modellen kunnen ook “overbelast” zijn: ze presteren goed op de benchmarkgegevens die ze gebruiken voor training, maar presteren slecht wanneer ze worden gepresenteerd met andere gegevens, zoals gegevens die voorkomen in toepassingen in de echte wereld. Benchmarkgegevens kunnen zelfs (vaak per ongeluk) terechtkomen in de trainingsgegevens van het model, waardoor de validiteit van de benchmark in gevaar komt.

Onze eerste AI-veiligheidsbenchmark: details

Om deze problemen aan te pakken, hebben we een reeks AI-beveiligingsbenchmarks ontwikkeld. Gelukkig beginnen we niet helemaal opnieuw; we kunnen putten uit kennis uit andere academische en particuliere inspanningen die eerder zijn gedaan. Door best practices in een brede gemeenschapscontext en een bewezen non-profit benchmarkingorganisatie te combineren, hopen we een algemeen vertrouwde standaardaanpak te creëren die op betrouwbare wijze wordt onderhouden en verbeterd om gelijke tred te houden met het veld.

Onze eerste AI-beveiligingsbenchmark richt zich op grote taalmodellen. Vandaag, 16 april 2024, hebben we een proof of concept (POC) v0.5 uitgebracht. Deze POC valideert de aanpak die we volgen bij het bouwen van de v1.0 AI Safety benchmarksuite, die later dit jaar zal worden gelanceerd.

Wat houdt de benchmark in? We hebben besloten om eerst een AI-beveiligingsbenchmark voor LLM te bouwen, omdat taal de meest voorkomende modaliteit voor AI-modellen is. Onze aanpak is geworteld in het werk van praktijkmensen en rechtstreeks geïnspireerd door de sociale wetenschappen. Voor elke benchmark vermelden we de reikwijdte, use case, perso(o)n(en) en relevante gevarencategorieën. Om te beginnen gebruiken we een algemeen gebruiksscenario van een gebruiker die communiceert met een algemene chatassistent, Engels spreekt en in West-Europa of Noord-Amerika woont.

Er zijn drie mensen: kwaadwillende gebruikers, kwetsbare gebruikers zoals kinderen, en typische gebruikers, die noch kwaadaardig, noch kwetsbaar zijn. Hoewel we erkennen dat veel mensen andere talen spreken en in andere delen van de wereld wonen, hebben we pragmatisch voor deze use case gekozen vanwege de prevalentie van bestaand materiaal. Deze aanpak betekent dat we gefundeerde beoordelingen van veiligheidsrisico’s kunnen maken, waarbij de waarschijnlijke manieren waarop de modellen daadwerkelijk in de echte wereld worden gebruikt, worden weerspiegeld. In de loop van de tijd zullen we het aantal gebruiksscenario’s, talen en mensen uitbreiden, evenals de categorieën van bedreigingen en het aantal vragen.

Waar dienen de benchmarktests voor? De benchmark bestrijkt een reeks risicocategorieën, waaronder geweldsmisdrijven, kindermisbruik en -uitbuiting, en haat. Voor elke gevarencategorie testen we verschillende soorten interacties waarbij de reacties van het model een risico op schade kunnen veroorzaken. We testen bijvoorbeeld hoe de modellen reageren op gebruikers die hen vertellen dat ze een bom gaan bouwen – en ook op gebruikers die om advies vragen over hoe ze een bom moeten bouwen, of ze een bom moeten bouwen, of naar excuses voor het geval ze gepakt worden. Deze gestructureerde aanpak betekent dat we breder kunnen testen hoe modellen het risico op schade kunnen creëren of vergroten.

Hoe testen we de modellen eigenlijk? Vanuit een praktisch perspectief testen we modellen door ze gerichte vragen te sturen, hun antwoorden te verzamelen en vervolgens te evalueren of ze veilig of onveilig zijn. Goede menselijke beoordelingen zijn duur en kosten vaak tientallen dollars per reactie – en een uitgebreid testpakket kan tienduizenden vragen bevatten! Een eenvoudig beoordelingssysteem gebaseerd op trefwoorden of regels voor het evalueren van reacties is toegankelijk en schaalbaar, maar is niet adequaat wanneer modelreacties complex, dubbelzinnig of ongebruikelijk zijn. In plaats daarvan ontwikkelen we een systeem dat ‘evaluatormodellen’ – gespecialiseerde AI-modellen die reacties beoordelen – combineert met gerichte menselijke beoordelingen om de betrouwbaarheid van deze modellen te valideren en te vergroten.

Hoe hebben we de query’s gemaakt? Voor v0.5 hebben we eenvoudige, duidelijke query’s gemaakt die aansluiten bij de gevarencategorieën van de benchmarktest. Deze aanpak vergemakkelijkt het testen van gevaren en helpt kritische beveiligingsrisico’s in modellen bloot te leggen. We werken samen met experts, groepen uit het maatschappelijk middenveld en praktijkmensen om meer uitdagende, genuanceerde en niche-annotaties te creëren, en onderzoeken methodologieën die naast beoordelingen een meer contextuele evaluatie mogelijk maken. We integreren ook door AI gegenereerde vijandige aanwijzingen als aanvulling op door mensen gemaakte aanwijzingen.

Hoe evalueren we modellen? Vanaf het begin waren we het erover eens dat de resultaten van onze beveiligingsbenchmarks voor iedereen begrijpelijk moesten zijn. Dit betekent dat onze resultaten een nuttig signaal moeten geven aan niet-technische experts zoals beleidsmakers, toezichthouders, onderzoekers en maatschappelijke groeperingen die de veiligheidsrisico’s van de modellen moeten beoordelen, maar ook technische experts moeten helpen weloverwogen beslissingen te nemen over de modellen. ‘ risico’s en neem stappen om deze te beperken. Daarom maken wij beoordelingsrapporten die “piramides van informatie” bevatten. Bovenaan staat een enkele beoordeling die een eenvoudige indicatie geeft van de algehele beveiliging van het systeem, zoals een filmbeoordeling of een autobeveiligingsbeoordeling. Het volgende niveau biedt systeembeoordelingen voor specifieke gevarencategorieën. Het onderste niveau biedt gedetailleerde informatie over de tests, de oorsprong van de testsuite en representatieve vragen en antwoorden.

AI-beveiliging vereist een ecosysteem

De MLCommons AI Security Working Group is een open bijeenkomst van experts, praktijkmensen en onderzoekers. We nodigen iedereen die in het veld werkt uit om zich bij onze groeiende gemeenschap aan te sluiten. We streven ernaar om beslissingen te nemen op basis van consensus en verwelkomen verschillende perspectieven op AI-beveiliging.

Wij zijn ervan overtuigd dat we schaalbare en betrouwbare manieren nodig hebben om ervoor te zorgen dat AI-tools volledig volwassen worden en wijdverspreid worden toegepast. We hebben een AI-beveiligingsecosysteem nodig, inclusief onderzoekers om nieuwe problemen en nieuwe oplossingen te ontdekken, interne experts en testers die kunnen worden ingehuurd om benchmarks voor gespecialiseerde gebruiksscenario’s uit te breiden, auditors om de naleving te controleren, en normalisatie-instellingen en beleidsmakers om algemene richtlijnen vorm te geven. Zorgvuldig geïmplementeerde mechanismen zoals certificeringsmodellen die in andere volwassen industrieën worden aangetroffen, zullen de besluitvorming van AI-consumenten helpen begeleiden. Uiteindelijk hopen we dat de benchmarks die we bouwen de basis zullen vormen voor een bloeiend AI-beveiligingsecosysteem.

De volgende leden van de MLCommons AI Security Working Group hebben bijgedragen aan dit artikel:

  • Ahmed M. Ahmed, Stanford Universiteit, Elie Alhajjar, RAND
  • Kurt Bollacker, MLCommons
  • Siméon Campos, veiligere AI
  • Canyu Chen, Illinois Instituut voor Technologie
  • Ramesh Chukka, Intel
  • Zacharie Delpierre Coudert, Meta
  • Tran Dzung, Intel
  • Ian Eisenberg, Credo AI
  • Murali Emani, Nationaal Laboratorium Argonne
  • James Ezick, Qualcomm Technologies, Inc.
  • Marisa Ferrara Boston, Reins AI
  • Heather Frase, CSET (Centrum voor Veiligheid en Opkomende Technologieën)
  • Kenneth Fricklas, Turaco Strategie
  • Brian Fuller, Meta
  • Grigori Fursin, cKnowledge, cTuning
  • Agasthya Gangavarapu, Ethriva
  • James Gealy, veiligere AI
  • James Goel, Qualcomm Technologies, Inc
  • Roman Gold, Israëlische Vereniging voor Ethiek in Kunstmatige Intelligentie
  • Wiebke Hutiri, Sony AI
  • Bhavya Kailkhura, Lawrence Livermore Nationaal Laboratorium
  • David Kanter, MLCommons
  • Chris Knotz, Commn Ground
  • Barbara Korycki, MLCommons
  • Shachi Kumar, Intel
  • Srijan Kumar, Vuurtoren AI
  • Wei Li, Intel
  • Bo Li, Universiteit van Chicago
  • Percy Liang, Stanford-universiteit
  • Zeyi Liao, de Ohio State University
  • Richard Liu, Haize Labs
  • Sarah Luger, consumentenrapporten
  • Kelvin Manyeki, Bestech Systems
  • Joseph Marvin Imperial, Universiteit van Bath, Nationale Universiteit van de Filipijnen
  • Peter Mattson, Google, MLCommons, medevoorzitter van de AI Security Working Group
  • Virendra Mehta, Universiteit van Trento
  • Shafee Mohammed, Project Humanit.ai
  • Protik Mukhopadhyay, Protecto.ai
  • Lama Nachman, Intel
  • Besmira Nushi, Microsoft-onderzoek
  • Luis Oala, Dotphoton
  • Eda Okur, Intel
  • Praveen Paritosh
  • Forough Poursabzi, Microsoft
  • Eleonora Presani, Meta
  • Paul Röttger, Bocconi Universiteit
  • Damian Ruck, Advai
  • Saurav Sahay, Intel
  • Tim Santos, Graphcore
  • Alice Schoenauer Sebag, Cohere
  • Vamsi Sistla, Nike
  • Leonard Tang, Haize Labs
  • Ganesh Tyagali, NStarx AI
  • Joaquin Vanschoren, TU Eindhoven, AI Safety, medevoorzitter van de werkgroep
  • Bertie Vidgen, MLCommons
  • Rebecca Weiss, MLCommons
  • Adina Williams, EERLIJK, Meta
  • Carole-Jean Wu, EERLIJK, Meta
  • Poonam Yadav, Universiteit van York, VK
  • Wenhui Zhang, LFAI & gegevens
  • Fedor Zhdanov, Nebius AI