NIST brengt een AI-model risicotesttool uit

Het National Institute of Standards and Technology (NIST), het Amerikaanse ministerie van Handel dat technologie ontwikkelt en test voor de Amerikaanse overheid, het bedrijfsleven en het grote publiek, heeft opnieuw een testbed uitgebracht dat is ontworpen om te meten hoe kwaadwillige aanvallen – vooral aanvallen die “gif” AI-trainingsgegevensmodel – kan de prestaties van het AI-systeem verslechteren.

Dioptra genaamd (naar het klassieke astronomische en landmeetkundige instrument), de modulaire, webgebaseerde, open-source tool, voor het eerst uitgebracht in 2022, wil bedrijven helpen AI-modellen te trainen – en de mensen die deze modellen gebruiken – om ze te evalueren, analyseren en monitoren van AI-risico’s. Dioptra kan worden gebruikt voor het benchmarken en onderzoeken van modellen, zegt NIST, en kan ook een gemeenschappelijk platform bieden voor het blootstellen van modellen aan gesimuleerde bedreigingen in een ‘rode team’-omgeving.

“Het testen van de effecten van vijandige aanvallen op machine learning-modellen is een van de doelen van Dioptra”, schreef NIST in een persbericht. “Open source software, zoals het genereren van kinderen die gratis kunnen worden gedownload, zou de gemeenschap, inclusief overheidsinstanties en kleine en middelgrote bedrijven, kunnen helpen evaluaties uit te voeren om de beweringen van AI-ontwikkelaars over de prestaties van hun systemen te evalueren.”

NIST dioptrie
Een screenshot van de interface van Diatropa.
Afbeeldingscredits: NIST

Dioptra debuteerde samen met documenten van NIST en het nieuw opgerichte Artificial Intelligence Security Institute van NIST, waarin manieren worden uiteengezet om enkele gevaren van kunstmatige intelligentie te verzachten, zoals hoe deze kan worden misbruikt om zonder toestemming pornografie te maken. Dit volgt op de lancering van Inspekta van het Britse AI Safety Institute, een reeks tools die eveneens gericht zijn op het beoordelen van de modelcapaciteiten en de algehele modelveiligheid. De VS en Groot-Brittannië hebben een doorlopend partnerschap om gezamenlijk geavanceerde tests van AI-modellen te ontwikkelen, zoals aangekondigd tijdens de Britse AI Security Summit in Bletchley Park afgelopen november.

Dioptra is ook een product van het uitvoerend bevel (EO) van president Joe Biden over AI, dat (onder andere) verplicht stelt dat NIST AI-systemen helpt testen. De EO stelt in dit verband ook normen vast voor de veiligheid en beveiliging van AI, inclusief eisen voor bedrijven die de modellen ontwikkelen (bijvoorbeeld Apple) om de federale overheid op de hoogte te stellen en de resultaten van eventuele beveiligingstests te delen voordat deze aan het publiek worden vrijgegeven.

Zoals we al eerder hebben geschreven, zijn AI-benchmarks moeilijk – niet in de laatste plaats omdat de meest geavanceerde AI-modellen van vandaag zwarte dozen zijn waarvan de infrastructuur, trainingsgegevens en andere belangrijke details geheim worden gehouden door de bedrijven die ze maken. Uit een rapport van deze maand van het Ada Lovelace Institute, een in Groot-Brittannië gevestigd non-profit onderzoeksinstituut dat kunstmatige intelligentie bestudeert, blijkt dat beoordelingen alleen onvoldoende zijn om de veiligheid van echte AI-modellen vast te stellen, deels omdat het huidige beleid AI-leveranciers in staat stelt selectief te kiezen welke evaluaties uitvoeren.

NIST beweert niet dat Dioptra modellen volledig van risico kan ontdoen. Maar het agentschap werken suggereren dat Dioptra licht kan werpen op welke soorten aanvallen een AI-systeem minder efficiënt kunnen laten werken en deze impact op de prestaties kan kwantificeren.

Met een belangrijke beperking werkt Dioptra echter alleen op modellen die lokaal kunnen worden gedownload en gebruikt, zoals Meta’s groeiende Llama-familie. Modellen achter de API, zoals GPT-4o van OpenAI, zijn verboden – althans voorlopig.