Waarom het nieuwe OpenAI-model zo belangrijk is

Afgelopen weekend ben ik op zomerkamp getrouwd en overdag deden onze gasten mee aan een reeks spellen die op de show waren geïnspireerd Overlevende die mijn huidige vrouw en ik hebben georkestreerd. Toen we de spellen in augustus planden, wilden we dat één station een geheugenuitdaging zou zijn, waarbij onze vrienden en familie een deel van het liedje uit het hoofd moesten leren en het vervolgens aan hun teamgenoten moesten doorgeven, zodat ze het opnieuw konden maken met de houten tegelset. .

Ik dacht dat de OpenAI GPT-4o, destijds het vlaggenschip, perfect geschikt zou zijn om te helpen. Ik vroeg hem om een kort gedicht met een huwelijksthema te maken, met de beperking dat elke letter slechts een bepaald aantal keren mocht voorkomen, zodat we er zeker van konden zijn dat de teams het konden reproduceren met behulp van de meegeleverde set tegels. GPT-4o faalde jammerlijk. Het model heeft er herhaaldelijk op aangedrongen dat haar liedje binnen de perken blijft, ook al is dat niet het geval. Hij telde de letters pas achteraf correct, terwijl hij liedjes bleef afleveren die niet aan de vraag voldeden. Omdat we geen tijd hadden om de songteksten met de hand te maken, lieten we het idee van het liedje varen en daagden we de gasten uit om een reeks vormen uit het hoofd te leren, gemaakt van gekleurde tegels. (Het werd uiteindelijk een hit bij onze vrienden en familie, die deelnamen aan trefbal, eieren gooien en de vlag veroveren.)

Vorige week bracht OpenAI echter een nieuw model uit genaamd o1 (voorheen met de codenaam “Strawberry” en daarvoor Q*) dat blaast GPT-4o uit het water voor dit soort doeleinden.

In tegenstelling tot eerdere modellen die zeer geschikt zijn voor taaltaken zoals schrijven en redigeren, is OpenAI o1 gericht op ‘redeneren’ op meerdere niveaus, het type proces dat nodig is voor geavanceerde wiskunde, codering of andere STEM-gebaseerde vragen. Het maakt volgens OpenAI gebruik van een ‘chain of thought’-techniek. “Hij leert zijn fouten herkennen en corrigeren. Hij leert lastige stappen op te splitsen in eenvoudigere. Leer een andere aanpak te proberen als de huidige niet werkt”, schreef het bedrijf in een blogpost op zijn website.

OpenAI-tests duiden op groot succes. Het model staat in het 89e percentiel op vragen van de competitieve codeerorganisatie Codeforces en zou tot de top 500 van middelbare scholieren behoren op de Amerikaanse Wiskundeolympiade, die meetkunde, getaltheorie en andere wiskundige onderwerpen behandelt. Het model is ook getraind om vragen op doctoraalniveau te beantwoorden in onderwerpen variërend van astrofysica tot organische chemie.

Bij de wiskundeolympiadevragen is het nieuwe model 83,3% correct, vergeleken met 13,4% voor GPT-4o. Bij de vragen op PhD-niveau bedroeg de nauwkeurigheid gemiddeld 78%, vergeleken met 69,7% van menselijke experts en 56,1% van GPT-4o. (In het licht van deze prestaties is het niet verrassend dat het nieuwe model redelijk goed was in het schrijven van een liedje voor onze huwelijksspellen, hoewel het nog steeds niet perfect was; het gebruikte meer Ts en Ss dan was voorgeschreven.)

Waarom is dit belangrijk? Het grootste deel van de vooruitgang van LLM tot nu toe is taalgestuurd, wat heeft geresulteerd in chatbots of stemassistenten die woorden kunnen interpreteren, analyseren en genereren. Maar naast dat ze veel feiten verkeerd hadden, slaagden dergelijke LLM’s er niet in om de vaardigheden aan te tonen die nodig zijn om belangrijke problemen op te lossen op gebieden als de ontdekking van medicijnen, materiaalkunde, coderen of natuurkunde. OpenAI’s o1 is een van de eerste tekenen dat LLM’s binnenkort echt nuttige metgezellen kunnen worden voor menselijke onderzoekers op deze gebieden.

Dat is een groot probleem, omdat het de ‘gedachteketen’ van het denken in een AI-model naar een groot publiek brengt, zegt Matt Welsh, onderzoeker op het gebied van kunstmatige intelligentie en oprichter van LLM-startup Fixie.