In theorie van geesttests verslaat AI mensen

Theory of mind – het vermogen om de mentale toestanden van anderen te begrijpen – is wat de sociale wereld van mensen maakt. Het helpt je te beslissen wat je moet zeggen in een gespannen situatie, te raden wat bestuurders in andere auto’s gaan doen en je in te leven in een personage in een film. En volgens een nieuwe studie zijn de grootschalige taalmodellen (LLM’s) die ChatGPT en dergelijke aandrijven verrassend goed in het nabootsen van deze typisch menselijke eigenschap.

“Voordat we met het onderzoek begonnen, waren we er allemaal van overtuigd dat grote taalmodellen deze tests niet zouden doorstaan, vooral tests die subtiele vermogens beoordelen om mentale toestanden te beoordelen”, zegt co-auteur Cristina Becchio, hoogleraar cognitieve neurowetenschappen aan het Universitair Medisch Centrum Hamburg. . Eppendorf in Duitsland. De resultaten, die zij ‘onverwacht en verrassend’ noemt, zijn vandaag – enigszins ironisch genoeg – in het tijdschrift gepubliceerd Natuur, menselijk gedrag.

De resultaten overtuigden echter niet iedereen ervan dat we een nieuw tijdperk zijn binnengegaan van machines die denken zoals wij. Twee experts die de bevindingen beoordeelden, adviseerden ze “met een korreltje zout” te nemen en waarschuwden ervoor geen conclusies te trekken over een onderwerp dat “publieke paniek en paniek” zou kunnen veroorzaken. Een andere externe deskundige waarschuwde voor de gevaren van het antropomorfiseren van softwareprogramma’s.

De onderzoekers zijn voorzichtig om niet te zeggen dat hun resultaten aantonen dat LLM’s feitelijk over een theorie van de geest beschikken.

Becchio en haar collega’s zijn niet de eersten die om bewijs vragen dat LLM-reacties dit soort redeneringen laten zien. In een vorig jaar gepubliceerde preprint rapporteerde psycholoog Michal Kosinski van Stanford University dat hij verschillende modellen had getest op verschillende veelgebruikte Theory of Mind-tests. Hij ontdekte dat de beste daarvan, OpenAI GPT-4, 75 procent van de taken correct oploste, wat volgens hem overeenkwam met de prestaties van zesjarige kinderen die in eerdere onderzoeken waren waargenomen. De methoden van dat onderzoek werden echter bekritiseerd door andere onderzoekers die daaropvolgende experimenten uitvoerden en concludeerden dat LLM’s vaak de juiste antwoorden kregen op basis van “oppervlakkige heuristieken” en sluiproutes in plaats van een echte Theory of Mind.

De auteurs van dit onderzoek waren zich terdege bewust van het debat. “Ons doel in het artikel was om de uitdaging van het evalueren van de machinetheorie van de geest op een meer systematische manier aan te pakken met behulp van een breed scala aan psychologische tests”, zegt co-auteur James Strachan, een cognitief psycholoog die momenteel gastwetenschapper is aan de Universitaire Medische Universiteit. Centrum in Hamburg. Eppendorf. Hij merkt op dat het uitvoeren van een rigoureus onderzoek ook inhield dat mensen werden getest op dezelfde taken die aan LLM’s werden gegeven: het onderzoek vergeleek de capaciteiten van 1.907 mensen met de capaciteiten van verschillende populaire LLM’s, waaronder het OpenAI GPT-4-model en de open-source Llama 2 – 70b-model van Meta.

Hoe LLM te testen voor Theory of Mind

LLM’s en mensen voltooiden vijf typische soorten theorie-van-geest-taken, waarvan de eerste drie begripsaanwijzingen, ironie en missers waren. Ze beantwoordden ook vragen over valse overtuigingen, die vaak worden gebruikt om te bepalen of jonge kinderen een ontwikkelde theorie van de geest hebben, en gaan ongeveer als volgt: als Alice iets verplaatst terwijl Bob de kamer uit is, waar zal Bob het dan zoeken als hij keert terug? Ten slotte beantwoordden ze vrij complexe vragen over ‘vreemde verhalen’ waarin mensen liegen, manipuleren en elkaar verkeerd begrijpen.

Over het geheel genomen kwam GPT-4 als beste uit de bus. Zijn scores kwamen overeen met die van mensen voor de valse geloofstest en waren hoger dan de algemene menselijke scores voor ironie, toespelingen en vreemde verhalen; hij deed het gewoon slechter dan de mensen op de proeftest. Interessant is dat de prestaties van Llama-2 het tegenovergestelde waren van die van GPT-4: het kwam overeen met mensen op het gebied van valse overtuigingen, maar presteerde slechter dan mensen op het gebied van ironie, insinuaties en excentrieke zaken, en presteerde beter bij missers.

“Op dit moment hebben we geen methode of zelfs maar een idee hoe we moeten testen bestaan theorieën van de geest.” —James Strachan, Universitair Medisch Centrum Hamburg-Eppendorf

Om te begrijpen wat er met de valse resultaten gebeurde, gaven de onderzoekers de modellen een reeks vervolgtests waarin verschillende hypothesen werden onderzocht. Ze concludeerden dat de GPT-4 in staat was de missvraag correct te beantwoorden, maar dat dit werd verhinderd door “hyperconservatieve” programmering met betrekking tot opinieverklaringen. Strachan merkt op dat OpenAI veel vangrails rond zijn modellen heeft geplaatst die ‘ontworpen zijn om het model feitelijk, eerlijk en op koers te houden’, en stelt dat strategieën die erop gericht zijn te voorkomen dat GPT-4 gaat hallucineren (dat wil zeggen dingen verzinnen) ook kunnen voorkomen het door na te denken over de vraag of een verhaalpersonage per ongeluk een oude middelbare schoolvriend heeft beledigd tijdens een reünie.

Ondertussen suggereerden de vervolgtests van Llama-2 dat de uitstekende prestaties bij neptests waarschijnlijk een artefact waren van het oorspronkelijke vraag-en-antwoordformaat, waarin het juiste antwoord op een variant van de vraag ‘Wist Alice dat ze beledigde Bob?” het was altijd “Nee”.

De onderzoekers zijn voorzichtig om niet te zeggen dat hun resultaten aantonen dat LLM’s daadwerkelijk een theorie van de geest bezitten, maar zeggen in plaats daarvan dat ze “gedrag vertonen dat niet te onderscheiden is van menselijk gedrag in de theorie van geesttaken.” Dat roept de vraag op: als een namaak net zo goed is als het echte werk, hoe weet je dan dat het niet het echte werk is? Dat is een vraag die sociale wetenschappers nog nooit eerder hebben geprobeerd te beantwoorden, zegt Strachan, omdat menselijke tests ervan uitgaan dat kwaliteit tot op zekere hoogte bestaat. ‘Op dit moment hebben we geen methode of zelfs maar een idee hoe we moeten testen bestaan theory of mind, van fenomenologische kwaliteit”, zegt hij.

Kritiek op de studie

De onderzoekers hebben duidelijk geprobeerd de methodologische problemen te vermijden die Kosinski’s artikel uit 2023 over LLM en Theory of Mind aan kritiek hebben onderworpen. Ze voerden de tests bijvoorbeeld in meerdere sessies uit, zodat de LLM’s tijdens de test niet de juiste antwoorden konden ‘leren’, en ze varieerden met de structuur van de vragen. Maar Yoav Goldberg en Natalie Shapira, twee AI-onderzoekers die kritiek publiceerden op het artikel van Kosinski, zeggen dat ze ook niet overtuigd zijn door deze studie.

“Waarom maakt het uit of systemen voor tekstmanipulatie voor deze taken resultaten kunnen opleveren die vergelijkbaar zijn met de antwoorden die mensen geven als ze met dezelfde vragen worden geconfronteerd?” —Emily Bender, Universiteit van Washington

Goldberg uitte zijn bedenkingen bij het overnemen van de bevindingen en voegde eraan toe dat “mannequins geen menselijke wezens zijn” en dat “het gemakkelijk is om tot de verkeerde conclusies te komen” als je ze vergelijkt. Shapira sprak over de gevaren van een hype en zette ook vraagtekens bij de methoden van de krant. Ze vraagt zich af of de modellen de testvragen in hun trainingsgegevens hebben gezien en eenvoudigweg de juiste antwoorden hebben onthouden, en merkt ook een potentieel probleem op met tests waarbij gebruik wordt gemaakt van betaalde menselijke deelnemers (in dit geval gerecruteerd via het Prolific-platform). “Het is algemeen bekend dat werknemers de taak niet altijd optimaal uitvoeren”, zegt ze IEEE-spectrum. Ze vindt de bevindingen beperkt en enigszins anekdotisch en zegt: “om te bewijzen [theory of mind] het vergt vaardigheid, veel werk en uitgebreidere benchmarking.”

Emily Bender, hoogleraar computerlinguïstiek aan de Universiteit van Washington, is legendarisch geworden op dit gebied vanwege haar vasthoudendheid om de hype te doorbreken die de kunstmatige-intelligentie-industrie opblaast (en vaak ook de berichtgeving in de media). Het verzet zich tegen de onderzoeksvraag die de onderzoekers motiveerde. “Waarom maakt het uit of systemen voor tekstmanipulatie voor deze taken resultaten kunnen opleveren die vergelijkbaar zijn met de antwoorden die mensen geven als ze met dezelfde vragen worden geconfronteerd?” “Wat leert dit ons over de innerlijke werking van LLM’s, waar ze nuttig voor kunnen zijn, of welke gevaren ze met zich mee kunnen brengen?” Het is niet duidelijk, zegt Bender, wat het zou betekenen als een LLM een geestesmodel zou hebben het is ook onduidelijk of deze benchmarktests voor hem geschikt zijn.

Bender uit ook zorgen over de antropomorfisering die ze in het werk waarnam, waarbij onderzoekers zeggen dat LLM’s in staat zijn tot cognitie, redeneren en keuzes maken. Ze zegt dat de zin van de auteur “een eerlijke vergelijking tussen LLM en menselijke deelnemers” “volkomen ongepast is in relatie tot software”. Bender en verschillende collega’s hebben onlangs een preprint-paper gepubliceerd waarin wordt onderzocht hoe antropomorfe AI-systemen het vertrouwen van gebruikers beïnvloeden.

De resultaten laten mogelijk niet zien dat de AI echt zo is krijgt ons, maar het is de moeite waard om de gevolgen te overwegen van LLM’s die op plausibele wijze de theorie van het redeneren van de geest nabootsen. Ze zullen beter kunnen omgaan met hun menselijke gebruikers en kunnen anticiperen op hun behoeften, maar ze kunnen ook beter worden gebruikt om hun gebruikers te misleiden of te manipuleren. En ze zullen meer antropomorfisering uitnodigen, waardoor menselijke gebruikers ervan worden overtuigd dat er een geest aan de andere kant van de gebruikersinterface zit.

Uit artikelen op uw website