Als AI de Turing Test overbodig maakt, wat is er dan beter?

Een witte androïde die neerslachtig aan een tafel zit met een alcoholisch drankje.  3D-weergave met zeer hoge resolutie.

Als een machine of AI-programma de menselijke intelligentie evenaart of overtreft, betekent dit dan dat het mensen perfect kan simuleren? Als dat zo is, hoe zit het dan met redeneren – ons vermogen om logica toe te passen en rationeel te denken voordat we beslissingen nemen? Hoe kunnen we überhaupt vaststellen of een AI-programma het kan begrijpen? Om deze vraag te beantwoorden heeft een team van onderzoekers een nieuw raamwerk voorgesteld dat functioneert als een psychologische studie voor software.

“Deze test behandelt een ‘intelligent’ programma alsof het deelneemt aan een psychologisch onderzoek en bestaat uit drie stappen: (a) het testen van het programma in een reeks experimenten die de conclusies ervan testen, (b) het testen van het begrip van zijn eigen modus van redeneren, en (c) indien mogelijk de cognitieve geschiktheid van de broncode voor het programma onderzoeken”, merken de onderzoekers op.

Ze suggereren dat standaardmethoden voor het beoordelen van machine-intelligentie, zoals de Turing-test, alleen kunnen uitwijzen of een machine goed is in het verwerken van informatie en het imiteren van menselijke reacties. De huidige generaties AI-programma’s, zoals bijvoorbeeld Google LaMDA en OpenAI ChatGPT, zijn dicht bij het slagen voor de Turing-test gekomen, maar de testresultaten suggereren niet dat deze programma’s kunnen denken en redeneren als mensen.

Daarom is de Turing-test mogelijk niet langer relevant en is er behoefte aan nieuwe evaluatiemethoden die de intelligentie van machines effectief kunnen beoordelen, beweren de onderzoekers. Zij beweren dat hun raamwerk een alternatief zou kunnen zijn voor de Turing-test. “Wij stellen voor om de Turing-test te vervangen door een meer gerichte en fundamentele test om de vraag te beantwoorden: denken programma’s zoals mensen denken?” volgens de auteurs van het onderzoek.

Wat is er mis met de Turing-test?

Tijdens de Turing Test spelen beoordelaars verschillende spellen waarbij sprake is van tekstgebaseerde communicatie met echte mensen en AI-programma’s (machines of chatbots). Het is een blinde test, dus beoordelaars weten niet of ze een bericht sturen naar een mens of een chatbot. Als AI-programma’s erin slagen mensachtige reacties te genereren – tot het punt waarop beoordelaars moeite hebben om onderscheid te maken tussen menselijke en AI-programma’s – wordt de AI als geslaagd beschouwd. Omdat de Turing-test echter gebaseerd is op subjectieve interpretatie, zijn deze resultaten ook subjectief.

De onderzoekers suggereren dat er verschillende beperkingen zijn verbonden aan de Turing-test. Alle spellen die tijdens de test worden gespeeld, zijn bijvoorbeeld imitatiespellen die zijn ontworpen om te testen of de machine dat wel of niet kan nadoen man. Beoordelaars nemen beslissingen uitsluitend op basis van de taal of toon van de berichten die zij ontvangen. ChatGPT is uitstekend in het nabootsen van menselijke taal, zelfs in reacties die onjuiste informatie geven. De test beoordeelt dus duidelijk niet het redeneervermogen en het logische vermogen van de machine.

De resultaten van Turing-tests kunnen je ook niet vertellen of een machine introspectie kan uitvoeren. We reflecteren vaak op onze daden uit het verleden en reflecteren op ons leven en onze beslissingen, wat een cruciaal vermogen is dat ons ervan weerhoudt dezelfde fouten te herhalen. Hetzelfde geldt voor kunstmatige intelligentie, zo blijkt uit een onderzoek van Stanford University dat suggereert dat machines die zichzelf kunnen reflecteren, praktischer zijn voor menselijk gebruik.

“AI-agenten die kunnen voortbouwen op eerdere ervaringen en zich goed kunnen aanpassen door efficiënt nieuwe of veranderende omgevingen te verkennen, zullen leiden tot veel meer adaptieve, flexibele technologieën, van thuisrobotica tot gepersonaliseerde leermiddelen”, zegt Nick Haber, een assistent-professor aan Stanford University die dat niet was. betrokken bij de huidige onderzoeken, zei hij.

Bovendien slaagt de Turing-test er niet in om het denkvermogen van AI-programma’s te analyseren. In een recent Turing Test-experiment wist GPT-4 beoordelaars ervan te overtuigen om in meer dan 40 procent van de gevallen met mensen te communiceren. Dit resultaat geeft echter geen antwoord op de fundamentele vraag: kan een AI-programma denken?

Alan Turing, de beroemde Britse wetenschapper die de Turingtest heeft bedacht, zei ooit: ‘Een computer zou het verdienen intelligent genoemd te worden als hij een mens voor de gek kon houden door hem te laten geloven dat hij een mens was. Zijn test bestrijkt echter slechts één aspect van de menselijke intelligentie: imitatie. Hoewel het mogelijk is iemand voor de gek te houden door dit ene aspect te gebruiken, zijn veel experts van mening dat een machine nooit echte menselijke intelligentie kan bereiken zonder die andere aspecten erbij te betrekken.

‘Het is onduidelijk of het slagen voor de Turing-test een belangrijke mijlpaal is of niet. Het vertelt ons niets over wat het systeem kan doen of begrijpen, niets over de vraag of het complexe interne monologen heeft opgesteld of zich kan bezighouden met planning over abstracte tijdshorizonten, wat centraal staat in de menselijke intelligentie”, aldus Mustafa Suleyman, een expert op het gebied van kunstmatige intelligentie en intelligentie. zei de oprichter van DeepAI Bloomberg.