Menselijke AI-spellen via speltheorie

De voorzittershamer van een rechter naast een stapel kleingeld. — Toename / In de experimenten moesten mensen beoordelen wat een eerlijk geldaanbod was.

In veel gevallen worden AI’s getraind op materiaal dat door mensen is gemaakt of samengesteld. Als gevolg hiervan kan het een aanzienlijke uitdaging worden om te voorkomen dat AI de vooroordelen van die mensen en de samenleving waartoe ze behoren repliceert. En de inzet is hoog, omdat we AI gebruiken om medische en financiële beslissingen te nemen.

Maar sommige onderzoekers van de Washington University in St. Louis ontdekte een extra tekortkoming in deze uitdagingen: de menselijke stagiairs kunnen mogelijk hun gedrag veranderen als ze weten dat dit toekomstige beslissingen van de AI kan beïnvloeden. En in sommige gevallen brengen ze het veranderde gedrag over naar situaties waarin geen AI-training nodig is.

Wil je een spelletje spelen?

Het werk bestond erin om vrijwilligers te laten deelnemen aan een eenvoudige vorm van speltheorie. De testers gaven twee deelnemers een pot met geld – in dit geval $ 10. Een van de twee werd vervolgens gevraagd een deel van dat geld aan de ander aan te bieden, die ervoor kon kiezen het aanbod te accepteren of af te wijzen. Als het aanbod werd afgewezen, kreeg niemand het geld.

Vanuit een puur rationeel economisch perspectief moeten mensen alles accepteren wat hen wordt aangeboden, omdat ze uiteindelijk meer geld zullen hebben dan ze anders zouden hebben gehad. Maar in werkelijkheid hebben mensen de neiging om aanbiedingen die te veel afwijken van een 50/50-verdeling af te wijzen, omdat ze vinden dat een zeer onevenwichtige verdeling oneerlijk is. Door hun afwijzing kunnen ze de persoon die het oneerlijke aanbod heeft gedaan, straffen. Hoewel er enkele culturele verschillen zijn over waar de verdeeldheid oneerlijk wordt, is dit effect vele malen herhaald, ook in het huidige werk.

De twist in het nieuwe werk van Lauren Treiman, Chien-Ju Ho en Wouter Kool is dat ze een aantal deelnemers vertelden dat hun partner een AI was, en dat de resultaten van hun interacties met haar terug zouden komen in het systeem om te trainen zijn toekomstige prestaties.

Dit neemt iets impliciet in de puur speltheoretische setting – dat het afwijzen van aanbiedingen partners kan helpen begrijpen welke soorten aanbiedingen eerlijk zijn – en maakt het zeer expliciet. Deelnemers, of op zijn minst een deel van de experimentele groep die de AI moest trainen, konden gemakkelijk concluderen dat hun acties toekomstige AI-aanbiedingen zouden beïnvloeden.

De vraag die de onderzoekers interesseerde was of het het gedrag van mensen zou beïnvloeden. Ze vergeleken dit met het gedrag van een controlegroep die net had deelgenomen aan een standaardtest van de speltheorie.

Eerlijkheid tijdens het trainen

Treiman, Ho en Kool registreerden vooraf de talrijke multivariate analyses die ze met de gegevens wilden uitvoeren. Maar ze leverden niet altijd consistente resultaten op tussen de experimenten door, waarschijnlijk omdat er niet genoeg deelnemers waren om relatief subtiele effecten met statistische zekerheid te detecteren, en waarschijnlijk omdat het relatief grote aantal tests zou betekenen dat er door toeval maar weinig positieve resultaten zouden verschijnen.

We zullen ons dus concentreren op de eenvoudigste vraag die wordt beantwoord: Heeft de opdracht om een AI te trainen iemands gedrag veranderd? Deze vraag werd gesteld via een reeks experimenten die erg op elkaar leken. (Een van de belangrijkste verschillen tussen de twee was of de AI-trainingsinformatie werd weergegeven met een camerapictogram, omdat mensen soms hun gedrag zullen veranderen als ze weten dat ze in de gaten worden gehouden.)

Het antwoord op de vraag is duidelijk ja: mensen zullen daadwerkelijk hun gedrag veranderen als ze nadenken over het trainen van AI. Door een reeks experimenten was de kans groter dat deelnemers oneerlijke aanbiedingen afwezen als hen werd verteld dat hun sessies zouden worden gebruikt om een AI te trainen. In verschillende experimenten was de kans groter dat ze wat als eerlijke aanbiedingen werd beschouwd, afwezen (in de Amerikaanse bevolking neemt het afwijzingspercentage dramatisch toe als iemand een 70/30-verdeling voorstelt, wat betekent dat $ 7 naar de persoon gaat die het voorstel in deze experimenten heeft gedaan). De onderzoekers vermoeden dat dit komt doordat mensen eerder geneigd zijn ‘eerlijke’ aanbiedingen, zoals een 60/40-verdeling, af te wijzen.

Dit gebeurde ook al bracht de afwijzing van een aanbod economische kosten met zich mee voor de deelnemers. En mensen bleven dit gedrag vertonen, zelfs toen hen werd verteld dat ze na de training nooit meer met de AI zouden communiceren, wat betekent dat ze persoonlijk niet zouden profiteren van eventuele veranderingen in het gedrag van de AI. Dus hier leek het erop dat mensen een financieel offer zouden brengen om een AI te trainen op een manier die anderen ten goede zou komen.

Opvallend was dat deelnemers in twee van de drie posttest-experimenten twee dagen na hun deelname aan de AI-training aanbiedingen in een hoger tempo bleven afwijzen, zelfs als hen werd verteld dat hun acties niet langer werden gebruikt om de AI te trainen. . . Het lijkt er dus tot op zekere hoogte op dat deelname aan de AI-training ervoor zorgde dat ze werden getraind om zich anders te gedragen.

Het is duidelijk dat dit niet elke vorm van AI-training zal beïnvloeden, en veel van het werk dat gaat in het produceren van materiaal dat wordt gebruikt om zoiets als een groot taalmodel te trainen, zal niet worden gedaan in het besef dat het kan worden gebruikt om een AI te trainen. . Er zijn echter veel gevallen waarin mensen directer betrokken zijn bij de training, dus het is de moeite waard om je ervan bewust te zijn dat dit een andere manier is waarop vooroordelen kunnen binnensluipen.

PNAS2024. DOI: 10.1073/pnas.2408731121 (Over DOI).