De opkomende mogelijkheden van grote taalmodellen zijn een luchtspiegeling

De originele versie van dit verhaal verscheen in Quanta-tijdschrift.

Twee jaar geleden hebben 450 onderzoekers in een project met de naam Beyond the Imitation Game benchmark, of BIG-bench, een lijst samengesteld van 204 taken die zijn ontworpen om de mogelijkheden van grote taalmodellen te testen, die chatbots als ChatGPT aandrijven. Bij de meeste taken verbeterden de prestaties voorspelbaar en soepel naarmate de modellen groter werden: hoe groter het model, hoe beter. Maar bij andere taken verliep de sprong in vaardigheid niet soepel. De prestatie bleef een tijdje dicht bij nul, maar daarna schoot de prestatie omhoog. Andere onderzoeken hebben vergelijkbare sprongen in vaardigheden gevonden.

De auteurs omschrijven dit als ‘doorbraakgedrag’; andere onderzoekers vergeleken het met een faseovergang in de natuurkunde, zoals wanneer vloeibaar water in ijs bevriest. In een artikel dat in augustus 2022 werd gepubliceerd, merkten de onderzoekers op dat dit gedrag niet alleen verrassend maar ook onvoorspelbaar is, en informatie zou moeten geven over de ontwikkeling van de beveiliging, het potentieel en de risico’s van AI. Ze noemden de mogelijkheden ’emergent’, een woord dat collectief gedrag beschrijft dat alleen ontstaat wanneer een systeem een hoog niveau van complexiteit bereikt.

Maar de zaken zijn misschien niet zo eenvoudig. Een nieuw artikel van een drietal onderzoekers van Stanford University stelt dat de plotselinge opkomst van deze vaardigheden eenvoudigweg een gevolg is van de manier waarop onderzoekers de prestaties van LLM’s meten. Vaardigheden, zo beweren zij, zijn noch onvoorspelbaar, noch plotseling. “De transitie is veel voorspelbaarder dan mensen denken”, zegt Sanmi Koyejo, computerwetenschapper aan Stanford en senior auteur van het artikel. “Sterke beweringen over opkomst hebben net zo veel te maken met hoe we ervoor kiezen om te meten als met wat de modellen doen.”

We zien en bestuderen dit gedrag nu pas vanwege de omvang van deze modellen. Grote taalmodellen worden getraind door enorme datasets met tekst te analyseren (woorden uit online bronnen, waaronder boeken, zoekopdrachten op internet en Wikipedia) en verbanden te vinden tussen woorden die vaak samen voorkomen. Grootte wordt gemeten in termen van parameters, ongeveer analoog aan alle manieren waarop woorden met elkaar verbonden kunnen worden. Hoe meer parameters, hoe meer verbindingen LLM kan vinden. GPT-2 had 1,5 miljard parameters, terwijl GPT-3.5, de LLM mogelijk gemaakt door ChatGPT, 350 miljard parameters gebruikt. GPT-4, dat in maart 2023 debuteerde en nu ten grondslag ligt aan Microsoft Copilot, zou door 1,75 biljoen mensen in gebruik zijn.

Die snelle groei heeft geleid tot een verbazingwekkende toename van de prestaties en efficiëntie, en niemand betwist dat LLM’s die groot genoeg zijn, taken kunnen uitvoeren die kleinere modellen niet kunnen uitvoeren, inclusief de taken waarvoor ze niet zijn opgeleid. Het Stanford-trio dat de opkomst als een ‘fantoom’ presenteerde, erkent dat LLM’s effectiever worden naarmate ze groter worden; in feite zou de extra complexiteit van grotere modellen het mogelijk moeten maken om moeilijkere en gevarieerdere problemen te verbeteren. Maar zij beweren dat de vraag of deze verbetering soepel en voorspelbaar lijkt, of grillige en scherpe resultaten, eerder het gevolg is van de keuze van de metrieken – of zelfs van de schaarste aan testgevallen – dan van de innerlijke werking van het model.