AI "Godfather" Yoshua Bengio sluit zich aan bij een Brits project om AI-rampen te voorkomen

Het doel van Safeguarded AI is het bouwen van kunstmatige-intelligentiesystemen die kwantitatieve zekerheid kunnen bieden, zoals een risicoscore, over hun impact op de echte wereld, zegt David “davidad” Dalrymple, programmadirecteur voor Safeguarded AI bij ARIA. Het idee is om menselijke tests aan te vullen met een wiskundige analyse van de potentiële schade van de nieuwe systemen.

Het project heeft tot doel beveiligingsmechanismen voor kunstmatige intelligentie te bouwen door wetenschappelijke modellen van de wereld, die in wezen simulaties van de wereld zijn, te combineren met wiskundige bewijzen. Deze bewijzen zouden uitleg bevatten over de werking van de AI, en mensen zouden de taak krijgen om te verifiëren dat de veiligheidscontroles van het AI-model correct zijn.

Bengio zegt dat hij ervoor wil zorgen dat toekomstige AI-systemen geen ernstige schade kunnen aanrichten.

“Op dit moment rennen we richting een mist waarachter zich een afgrond zou kunnen bevinden”, zegt hij. “We weten niet hoe ver de kloof is, en of die bestaat, dus het kan jaren, tientallen jaren duren, en we weten niet hoe ernstig het kan zijn… We moeten de middelen ontwikkelen om die mist op te ruimen en zorg ervoor dat we niet de kloof ingaan als die er is.”

Wetenschaps- en technologiebedrijven kunnen op geen enkele manier wiskundige garanties geven dat AI-systemen zich zullen gedragen zoals geprogrammeerd, voegt hij eraan toe. Deze onbetrouwbaarheid kan volgens hem tot desastreuze gevolgen leiden.

Dalrymple en Bengio stellen dat de huidige technieken voor het beperken van de risico’s van geavanceerde AI-systemen – zoals red teaming, waarbij mensen AI-systemen onderzoeken op gebreken – ernstige beperkingen hebben en er niet op kunnen worden vertrouwd om ervoor te zorgen dat kritieke systemen niet falen. – start- en landingsbanen.

In plaats daarvan hopen ze dat het programma nieuwe manieren zal bieden om AI-systemen te beveiligen die minder afhankelijk zijn van menselijke inspanning en meer van wiskundige zekerheid. De visie is om een AI-“poortwachter” te bouwen, belast met het begrijpen en beperken van de veiligheidsrisico’s van andere AI-agenten. Deze poortwachter zou ervoor zorgen dat AI-agenten die actief zijn in sectoren waar veel op het spel staat, zoals transport of energiesystemen, presteren zoals wij dat willen. Het idee is om in een vroeg stadium met bedrijven samen te werken om te begrijpen hoe AI-beveiligingsmechanismen nuttig kunnen zijn voor verschillende sectoren, zegt Dalrymple.

De complexiteit van geavanceerde systemen betekent dat we geen andere keuze hebben dan AI te gebruiken om AI te beschermen, betoogt Bengio. “Het is de enige manier, want op een gegeven moment zijn deze AI’s gewoon te ingewikkeld. Zelfs de antwoorden die we nu hebben, kunnen we niet echt opsplitsen in menselijke, begrijpelijke reeksen van redeneerstappen”, zegt hij.