Ontwapenend realistisch: ChatGPT-4o lacht om je grappen en gekke hoed

Toename / Oh jij dwaze, dwaze man. Waarom ben je zo dom, domme man?

Aurich Lawson | Getty-afbeeldingen

Op dit moment is iedereen met zelfs maar een voorbijgaande interesse in AI zeer bekend met het proces van het typen van berichten in een chatbot en het ontvangen van lange stromen tekst als reactie. De aankondiging van vandaag van ChatGPT-4o, waarmee gebruikers met een chatbot kunnen praten met behulp van realtime audio en video, lijkt misschien slechts een laterale evolutie van dat kerninteractiemodel.

Echter, na het bekijken van meer dan een dozijn videodemonstraties die OpenAI bij de aankondiging van vandaag heeft uitgebracht, denk ik dat we op de rand staan van iets dat meer op een grote verandering lijkt in de manier waarop we denken over en werken met grote taalmodellen. Hoewel we zelf nog geen toegang hebben tot de audiovisuele functies van ChatGPT-4o, zorgen de belangrijke non-verbale signalen die hier worden getoond (van zowel GPT-4o als de gebruiker) ervoor dat de chatbot op dit moment veel menselijker aanvoelt. En ik weet niet zeker of de gemiddelde gebruiker volledig voorbereid is op hoe hij erover denkt.

Hij denkt dat het mensen zijn

Bekijk deze video, waarin een nieuwe vader op ChatGPT-4o om zijn mening vraagt over een vadergrap (“Hoe noem je een enorme groep kittens? Meow-ntain!”). De oude ChatGPT4 had gemakkelijk dezelfde antwoorden kunnen typen: “Gefeliciteerd met de aanstaande toevoeging aan je familie!” en “Dat is absoluut hilarisch. Absoluut de ultieme papa-grap.” Maar het heeft zeker veel meer impact gehoor De GPT-4o biedt dezelfde informatie in de video, compleet met zacht gelach en de stijgende en dalende vocale intonaties van een levenslange vriend.

Of bekijk deze video, waarin GPT-4o reageert op foto’s van een schattige witte hond. De AI-assistent duikt meteen in dat hoge babysprekende stemregister dat meteen bekend zal zijn voor iedereen die voor het eerst een schattig huisdier ontmoet. Het is een overtuigende demonstratie van wat Rendall Munroe van xkcd beroemd omschreef als “Je bent een poesje!” effect, en het helpt je enorm overtuigen dat GPT-4o net als mensen is.

Niet helemaal het treurigste verjaardagsfeestje ter wereld, maar waarschijnlijk dichtbij... — Toename / Niet helemaal het droevigste verjaardagsfeestje ter wereld, maar waarschijnlijk dichtbij…

Dan is er een demo van een geënsceneerd verjaardagsfeestje, waar GPT-4o “Happy Birthday” zingt met een paar dramatische breaks, zelfbewuste lachjes en zelfs licht gewijzigde teksten voordat hij afdaalt in een soort dwaas gebabbel met frambozenmondgeluid. Ook al is het vooruitzicht om een AI-assistent te vragen om “Happy Birthday” voor je te zingen een beetje deprimerend, de specifieke presentatie van dat nummer hier is doordrenkt van een vertederende tederheid die niet echt mechanisch aanvoelt.

Toen ik vanmiddag naar de OpenAI GPT-4o-demo’s keek, merkte ik dat ik onbewust keer op keer moest grinniken toen ik nieuwe, verrassende voorbeelden van de vocale capaciteiten ervan tegenkwam. Of het nu de stereotiepe stem van de jocks is of de sarcastische indruk van Aubrey Plaza, het is allemaal ongelooflijk ontwapenend, vooral voor degenen onder ons die eraan gewend zijn dat LLM-interacties lijken op tekstgesprekken.

Als deze demo’s überhaupt indicatief zijn voor de vocale capaciteiten van ChatGPT-4o, zullen we een geheel nieuw niveau van parasociale relaties zien ontstaan tussen deze AI-assistent en zijn gebruikers. Jarenlang hebben op tekst gebaseerde chatbots menselijke ‘cognitieve tekortkomingen’ uitgebuit om mensen te laten geloven dat ze gezond zijn. Voeg daar de emotionele component van de precieze toonhoogteverschuivingen van de GPT-4o aan toe, en grote delen van het gebruikersbestand zullen zichzelf ervan overtuigen dat er daadwerkelijk geest in de machine zit.

Zie mij, voel mij, raak mij aan, genees mij

Naast het nieuwe non-verbale emotionele register van GPT-4o zal de reactiesnelheid van het model ook de manier veranderen waarop we met chatbots omgaan. Het verkleinen van de responstijdkloof van ChatGPT4’s twee tot drie seconden naar de geclaimde 320 milliseconden van de GPT-4o lijkt misschien niet veel, maar het is een verschil dat in de loop van de tijd toeneemt. Je kunt het verschil zien in het real-time vertaalvoorbeeld, waar de twee gesprekspartners veel natuurlijker verder kunnen gaan omdat ze niet ongemakkelijk hoeven te wachten tussen het einde van een zin en het begin van de vertaling.