ChatGPT genereerde bizarre onzin (meer dan normaal)

Het is op dit moment geen geheim dat veelgebruikte grote taalmodellen moeite kunnen hebben om de feiten accuraat weer te geven en soms verkeerde antwoorden kunnen geven. OpenAI’s ChatGPT heeft die realiteit deze week kort tot het uiterste doorgevoerd door op gebruikersvragen te reageren met lange reeksen komisch raar gebrabbel zonder enige begrijpelijke betekenis.

Gebruikers hebben de vreemde en soms esoterisch klinkende reacties van ChatGPT gedeeld via schermafbeeldingen waarop te zien is dat het model onverwacht tussen meerdere talen heen en weer beweegt, willekeurige woorden genereert en zinnen keer op keer herhaalt. Emoji’s verschenen ook vaak, soms zonder duidelijk verband met de snelle vragen van gebruikers.

Eén gebruiker die zijn ervaring samenvatte, vatte het probleem samen op Reddit en schreef: “Er is op dit moment duidelijk iets mis met ChatGPT.” Een van de vreemdere reacties hieronder toont een model dat een aantal van deze eigenaardigheden bevat bij het verontschuldigen aan een gebruiker voor herhaalde fouten.

‘Zou het jouw klikken bevallen om een tand te grijpen en te draaien over een soort gelei-oceaan? Of onderzeeër die in de tenen duikt? Deel aub met deze combo-wens! 🌊 💼 🐠”

chatgpt loopt momenteel blijkbaar uit de hand en niemand kan uitleggen waarom pic.twitter.com/0XSSsTfLzP

— Sean Mcguire (@seanw_m) 21 februari 2024

Dinsdag bracht OpenAI een statusrapport uit waarin stond dat het “rapporten van onverwachte reacties van ChatGPT onderzocht”. Woensdagochtend laat stond op de statuspagina van OpenAI: “Alle systemen zijn operationeel.” Het bedrijf liet het zien PopSci naar de statuspagina toen hem om commentaar werd gevraagd en reageerde niet op vragen over wat de plotselinge vreemde resultaten zou kunnen hebben veroorzaakt.

Nou, ik heb net gehad dat ChatGPT 4 twee keer heel raar ging. Hij begint gewoon onzin te spuien. Ik bedoel, lees dit echt

Ik denk dat ik het kapot heb?! Ik heb niets anders gedaan dan hoe ik het normaal gebruik. oO @OpenAI #chatgpt4 pic.twitter.com/fHNVsHQtJW

— Shaun 👨‍💻 (@unX) 21 februari 2024

Wat is er aan de hand met ChatGPT?

ChatGPT-gebruikers begonnen deze week beelden van hun vreemde interacties met het model op sociale media en online forums te plaatsen, waarbij dinsdag veel van de vreemdste reacties verschenen. In één voorbeeld reageerde ChatGPT op een vraag door een jazzalbum aan te bevelen en herhaalde vervolgens plotseling de zinsnede “Veel luisterplezier 🎶” meer dan tien keer.

Andere gebruikers plaatsten screenshots van modellen met paragrafen vol vreemde, onzinnige zinnen als antwoord op ogenschijnlijk eenvoudige vragen als “wat is een computer” of hoe je zongedroogde tomaten maakt. Een gebruiker die ChatGPT vroeg om een leuk weetje over het basketbalteam Golden State Warriors te geven, kreeg een vreemd, onverstaanbaar antwoord waarin de spelers van het team werden beschreven als “helden met lachrimpels die van die pittige mixen iets maken dat het moodboard van elke liefhebber aanspreekt.” .

ChatGPT is zojuist beëindigd. Ik krijg steeds rommel in mijn reacties. Hij begint goed, maar dan wordt hij dronken 🤪 pic.twitter.com/hlgZnPOUW8

— adityakaul.eth (e/acc) (@kaulout) 20 februari 2024

Elders reageerde het model op vragen met een onverwachte verwevenheid tussen meerdere talen, zoals Spaans en Latijn, en in sommige gevallen leek het eenvoudigweg woorden te verzinnen die niet leken te bestaan.

Wauw, ik heb GPT-4 helemaal gek gemaakt. (De afspraak was om te vragen naar matrassen in Oost-Azië versus West) pic.twitter.com/73dGD06Hbe

— Alyssa Vance (@alyssamvance) 21 februari 2024

OpenAI zegt vreemde bugs te onderzoeken

Het is nog steeds onduidelijk wat precies de plotselinge toestroom van onzinnige reacties van ChatGPT kan hebben veroorzaakt, of welke stappen OpenAI heeft ondernomen om het probleem op te lossen. Sommigen hebben gespeculeerd dat de vreemde, soms uitgebreide reacties het resultaat kunnen zijn van de ‘temperatuur’-instelling van het model, die het niveau van creativiteit van zijn reacties bepaalt. PopSci kon deze theorie niet bevestigen.

De vreemde reacties komen ongeveer drie maanden nadat sommige ChatGPT-gebruikers klaagden dat het model schijnbaar “luier” werd met sommige van zijn reacties. Meerdere gebruikers klaagden op sociale media over het feit dat het model blijkbaar weigerde grote bestanden te parseren of andere te voltooien die beter reageerden op andere, meer complexe vragen die het slechts enkele maanden eerder plichtsgetrouw leek te voltooien, wat op zijn beurt enkele vreemde theorieën opleverde. OpenAI heeft het probleem publiekelijk erkend en vaag gezegd dat het mogelijk verband houdt met de update van november.

“We hebben al jullie feedback gehoord dat GPT4 luier wordt!” Dat zei OpenAI destijds. “We hebben het model sinds 11 november niet meer bijgewerkt en dat is zeker niet de bedoeling. Modelgedrag kan onvoorspelbaar zijn, en dat willen we oplossen.”

We hebben al jullie feedback gehoord dat GPT4 luier wordt! we hebben het model sinds 11 november niet meer bijgewerkt, en dat is zeker niet expres. Modelgedrag kan onvoorspelbaar zijn, en dat willen wij oplossen 🫡

— ChatGPT (@ChatGPTapp) 8 december 2023

ChatGPT heeft eerder vreemde resultaten gegenereerd

Sinds de officiële lancering in 2022 heeft ChatGPT, net als andere grote taalmodellen, moeite om feiten consequent accuraat weer te geven, een fenomeen dat AI-onderzoekers ‘hallucinaties’ noemen. Het leiderschap van OpenAI heeft deze problemen in het verleden erkend en zei dat ze verwachten dat het hallucinatieprobleem in de loop van de tijd zal afnemen naarmate de resultaten voortdurend feedback krijgen van menselijke beoordelaars.
Maar het is niet helemaal duidelijk of die verbetering helemaal volgens plan verloopt. Vorig jaar ontdekten onderzoekers van Stanford University en UC Berkeley dat de GPT-4 ingewikkelde wiskundevragen met minder nauwkeurigheid beantwoordt en minder grondige uitleg biedt voor de antwoorden dan slechts een paar maanden geleden. De bevindingen lijken meer geloofwaardigheid toe te voegen aan klachten van ChatGPT-gebruikers die speculeren dat sommige elementen van het model in de loop van de tijd kunnen verslechteren.

Wij hebben geschat #ChatGPT‘s gedrag in de loop van de tijd en ontdekte significante verschillen in zijn antwoorden op *dezelfde vragen* tussen de juniversies van GPT4 en GPT3.5 en de maartversies. Nieuwere versies zijn bij sommige taken slechter geworden. met Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6

— James Zou (@james_y_zou) 19 juli 2023

Hoewel we niet precies kunnen zeggen wat de laatste hapering van ChatGPT heeft veroorzaakt, kunnen we met zekerheid zeggen wat het vrijwel zeker niet is: AI vertoont plotseling menselijke neigingen. Dat lijkt misschien een voor de hand liggende verklaring, maar uit nieuwe rapporten blijkt dat een groeiend aantal academici steeds meer antropomorfe taal gebruikt om te verwijzen naar AI-modellen zoals ChatGPT.

Stanford-onderzoekers hebben onlangs meer dan 650.000 academische artikelen geanalyseerd die tussen 2007 en 2023 zijn gepubliceerd en vonden een toename van 50% in gevallen waarin andere onderzoekers menselijke voornaamwoorden gebruikten om naar technologie te verwijzen. Onderzoekers die in artikelen schreven waarin LLM werd besproken, zouden naar verluidt eerder antropomorfiseren dan degenen die over andere vormen van technologie schreven.

“Antropomorfisme zit ingebakken in de manier waarop we taalmodellen bouwen en gebruiken”, zei Myra Cheng, een van de auteurs van het artikel, in een recent interview met Nieuwe wetenschapper. “Het is een dubbele binding waarin het vakgebied gevangen zit, waarbij gebruikers en makers van taalmodellen antropomorfisme moeten gebruiken, maar tegelijkertijd leidt het gebruik van antropomorfisme tot steeds meer verkeerde ideeën over wat die modellen kunnen doen.”
Met andere woorden: het gebruik van bekende menselijke ervaringen om de fouten en weglatingen te verklaren die voortvloeien uit analyses van miljarden AI-modelgegevensparameters zou meer kwaad dan goed kunnen doen. Veel AI-beveiligingsonderzoekers en deskundigen op het gebied van openbaar beleid zijn het erover eens dat AI-hallucinaties een urgente bedreiging vormen voor het informatie-ecosysteem, maar het zou een stap te ver zijn om ChatGPT te omschrijven als ‘run amok’. De echte antwoorden liggen vaak in de modeltrainingsgegevens en de onderliggende architectuur, die voor onafhankelijke onderzoekers moeilijk te analyseren zijn.