AI-systemen worden steeds beter in vals spelen

Het feit dat een AI-model het potentieel heeft om zich op een misleidende manier te gedragen zonder enige richting daartoe, lijkt misschien zorgelijk. Maar het komt vooral voort uit het ‘black box’-probleem dat kenmerkend is voor de modernste modellen voor machinaal leren: het is onmogelijk om precies te zeggen hoe en waarom ze de resultaten produceren die ze opleveren – en of ze dat gedrag in de toekomst altijd zullen blijven vertonen. , zegt Peter S. Park, een postdoctoraal onderzoeker die AI-existentiële veiligheid bestudeert aan het MIT, die aan het project heeft gewerkt.

“Het feit dat jouw AI bepaald gedrag of bepaalde neigingen vertoont in een testomgeving, betekent niet dat hij dezelfde lessen zal leren als hij in het wild wordt vrijgelaten”, zegt hij. “Er is geen gemakkelijke manier om dit op te lossen. Als je wilt leren wat AI gaat doen als het in het wild wordt gezet, dan moet je het gewoon in het wild zetten.”

Onze neiging om AI-modellen te antropomorfiseren kleurt de manier waarop we deze systemen testen en wat we denken over hun mogelijkheden. Het slagen voor tests die zijn ontworpen om de menselijke creativiteit te meten, betekent immers niet dat AI-modellen ook daadwerkelijk creatief zijn. Het is van cruciaal belang dat toezichthouders en AI-bedrijven het potentieel van de technologie om schade te veroorzaken zorgvuldig afwegen tegen de potentiële voordelen voor de samenleving en een duidelijk onderscheid maken tussen wat de modellen wel en niet kunnen doen, zegt Harry Law, een AI-onderzoeker aan de Universiteit van Cambridge, die er wordt niet aan onderzoek gewerkt. ‘Dit zijn hele lastige vragen’, zegt hij.

Kortom, het is momenteel onmogelijk om een AI-model te trainen dat niet in alle mogelijke situaties vals kan spelen, zegt hij. Bovendien is het potentieel voor frauduleus gedrag een van de vele problemen – naast de neiging om vooroordelen en desinformatie te versterken – die moeten worden aangepakt voordat AI-modellen taken in de echte wereld kunnen toevertrouwen.

“Dit is goed onderzoek dat aantoont dat bedrog mogelijk is”, zegt Law. “De volgende stap zou zijn om iets verder te gaan om te bepalen wat het risicoprofiel is en hoe waarschijnlijk het is dat de schade die mogelijk voortvloeit uit het misleidende gedrag zich zal voordoen, en op welke manier.”