AI die is getraind op AI spuugt wartaal

Grote taalmodellen zoals die van OpenAI en Google vereisen om te functioneren enorme hoeveelheden trainingsgegevens. De nieuwste versies van deze modellen hebben al een groot deel van het bestaande internet afgespeurd, waardoor sommigen vrezen dat er misschien niet genoeg nieuwe gegevens over zijn om toekomstige iteraties te trainen. Enkele prominente stemmen in de sector, zoals Mark Zuckerberg, CEO van Met, hebben een oplossing voor dat datadilemma geopperd: simpelweg nieuwe AI-systemen trainen op oude AI-outputs.

Maar nieuw onderzoek suggereert dat het kannibaliseren van de resultaten van eerdere modellen snel zou resulteren in een golf van AI-gebabbel en uiteindelijk zou kunnen leiden tot wat ‘model-instorting’ wordt genoemd. In één voorbeeld gaven de onderzoekers de AI een goedaardige paragraaf over kerkarchitectuur, maar deze werd in de loop van de generaties snel afgebroken. Het laatste, meest geavanceerde model herhaalde eenvoudigweg de uitdrukking “zwarte @tailed konijnen” keer op keer.

Een studie gepubliceerd in Natuur deze week heeft hij een getrainde AI op AI in het testscenario gezet. De onderzoekers bouwden hun eigen taalmodel dat aanvankelijk werd gevoed met originele, door mensen gegenereerde tekst. Vervolgens bouwden ze nog negen generaties modellen, elk getraind op de tekstuitvoer die door het voorgaande model werd gegenereerd. Het eindresultaat van de laatste generatie was irrelevant, surrealistisch klinkend gebrabbel dat in wezen niets met de originele tekst te maken had. In de loop van de tijd en opeenvolgende generaties zeggen de onderzoekers dat hun model ‘vergiftigd raakt door zijn eigen projectie van de werkelijkheid’.

AI-modellen vergeten betekenis naarmate ze meer op zichzelf trainen

Onderzoekers noemen dit vreemde geval waarin AI schijnbaar in zichzelf implodeert ‘model-instorting’, een degeneratief proces dat zich in vroege en late stadia kan voordoen. In het begin begint de ineenstorting plaats te vinden wanneer AI-modellen die verschillende generaties verwijderd zijn van de oorspronkelijke trainingsgegevens, uitzonderingen of zeldzaamheden in de originele tekst schijnbaar vergeten. Dit heeft tot gevolg dat de meest waarschijnlijke uitkomsten vaker voorkomen. Dit zou in de echte wereld een probleem zijn, omdat het zou kunnen resulteren in een vermindering van de standpunten of expressie van minderheden. Een LLM die tekenen van vroege ineenstorting vertoont, zou een versie van de werkelijkheid kunnen vertegenwoordigen die diversiteit ontbeert en lijdt aan overweldigende gelijkheid.

In de latere stadia van de ineenstorting worden de zaken vreemder. In die laatste generaties zijn de modellen die op de modellen zijn getraind zo ver verwijderd van de oorspronkelijke trainingsgegevens dat ze de belangrijkste aspecten van de initiële training beginnen te vergeten en de plot volledig kwijtraken. In dit stadium beginnen de modellen volkomen betekenisloos gebrabbel te genereren. Wanneer dit gebeurt, zeggen de onderzoekers, veroorzaakt het ‘zonder onderscheid’ zelf-kannibaliseren van de eigen eerdere resultaten van het model ‘onomkeerbare defecten in het resulterende model’.

De onderzoekers beweren dat dit trapsgewijze effect en de uiteindelijke ineenstorting van het model onvermijdelijk zijn voor grote modellen die op hun eigen gegevens zijn getraind. Het is belangrijk op te merken dat dit onderzoek zich specifiek richtte op taalmodellen en niet ingaat op wat er zou kunnen gebeuren als multimodale modellen zoals beeld- en videogeneratoren op zichzelf zouden worden getraind. Dit onderzoek richt zich ook op wat er moet gebeuren met het model dat erop wordt getraind eigen gegevens. Het is onduidelijk wat er precies zou gebeuren als een model, bijvoorbeeld van Meta, zou worden getraind op de output die door OpenAI wordt gegenereerd.

Het behoud van de originele menselijke tekst zou de ineenstorting kunnen voorkomen

De mogelijkheid van een ineenstorting van het model in de echte wereld is geen ondenkbare hypothese. Er zijn momenteel talloze websites in gebruik met artikelen en blogposts die volledig door LLM zijn gegenereerd. In de race om zo snel mogelijk nieuwe modellen te bouwen, is het niet ondenkbaar dat veel van de door AI gegenereerde modder in de trainingssets zou kunnen sijpelen.

Een mogelijke oplossing voor deze onbedoelde opname van door AI gegenereerde inhoud in trainingssets zou zijn het aanmoedigen van een watermerkstandaard op alle platforms die duidelijk de authenticiteit van de inhoud aangeeft en of deze al dan niet door een machine is geproduceerd. Google, Adobe en de grote technologiespelers proberen precies dat te doen met een speciale ‘content credential’-badge die ze proberen te standaardiseren als onderdeel van de Content Origin and Authenticity Coalition (C2PA).

Maar dat geldt alleen voor foto’s. Door AI gegenereerde tekst is ook veel moeilijker te voorzien van een watermerk of zelfs nauwkeurig te identificeren met behulp van de beschikbare detectiesoftware. Een meer realistische benadering kan vereisen dat AI-ontwikkelaars het materiaal nauwkeurig onderzoeken op tekenen van AI-manipulatie en mogelijk gerenommeerde menselijke bronnen betalen voor toegang tot training over hun hoogwaardige gegevens. Zonder deze waarborgen voor menselijke trainingsgegevens loopt het internet het risico te worden verbogen door een golf van AI-braaksel. Dat wil niemand.