AI-modellen kunnen beter presteren dan mensen in tests om mentale toestanden te identificeren

Theory of mind is een kenmerk van emotionele en sociale intelligentie dat ons in staat stelt de intenties van mensen af te leiden en met elkaar in contact te komen en ons in te leven. De meeste kinderen verwerven dit soort vaardigheden tussen de leeftijd van drie en vijf jaar.

De onderzoekers testten twee families van grote taalmodellen, OpenAI GPT-3.5 en GPT-4 en drie versies van Meta’s Llama, op taken die bedoeld waren om de theorie van de geest bij mensen te testen, waaronder het identificeren van valse overtuigingen, het herkennen van fouten en het begrijpen van wat er wordt geïmpliceerd en niet impliciet, zegt hij direct. Ze testten ook 1.907 mensen om reeksen resultaten te vergelijken.

Het team voerde vijf soorten tests uit. De eerste, de gevolgtrekkingstaak, was bedoeld om iemands vermogen te meten om zijn ware bedoelingen af te leiden uit indirecte opmerkingen. De tweede, de valse overtuigingstaak, beoordeelt of iemand kan concluderen dat van iemand anders redelijkerwijs kan worden verwacht dat hij gelooft dat iets waarvan hij toevallig weet niet het geval is. De tweede test mat het vermogen om te herkennen wanneer iemand een faux pas maakt, terwijl de vierde test bestond uit het vertellen van vreemde verhalen, waarbij de hoofdpersoon iets ongewoons doet, om te beoordelen of je het contrast tussen wat er werd gezegd en wat er was kon verklaren. bedoelde. Ze bevatten ook een test of mensen ironie konden begrijpen.

De AI-modellen kregen elke test 15 keer in afzonderlijke gesprekken, zodat elk verzoek onafhankelijk werd behandeld en hun antwoorden op dezelfde manier scoorden als mensen. De onderzoekers testten vervolgens menselijke vrijwilligers en vergeleken de twee reeksen resultaten.

Beide versies van de GPT presteerden op, of soms boven, menselijke gemiddelden op taken die gepaard gingen met indirecte verzoeken, misleiding en valse overtuigingen, terwijl GPT-4 beter presteerde dan mensen op het gebied van ironie, toespelingen en vreemde verhalen. Drie Llama 2-modellen presteerden onder het menselijk gemiddelde.

Llama 2, de grootste van de drie geteste Meta-modellen, presteerde echter beter dan mensen als het ging om het herkennen van nepscenario’s, terwijl GPT consequent onjuiste antwoorden gaf. De auteurs zijn van mening dat dit te wijten is aan de algemene afkeer van GPT om opinieconclusies te genereren, aangezien de modellen over het algemeen antwoordden dat er niet genoeg informatie was om op de een of andere manier te antwoorden.