OpenAI kondigt een nieuw AI-model aan, met de codenaam Strawberry, dat moeilijke problemen stap voor stap oplost

OpenAI maakte de laatste grote doorbraak op het gebied van kunstmatige intelligentie door de omvang van zijn modellen tot duizelingwekkende proporties op te schalen toen het vorig jaar GPT-4 introduceerde. Het bedrijf heeft vandaag een nieuwe vooruitgang aangekondigd die een verandering in de aanpak aangeeft: een model dat veel moeilijke problemen logisch kan ‘ontleden’ en aanzienlijk slimmer is dan de bestaande AI zonder veel opschaling.

Het nieuwe model, OpenAI o1 genaamd, kan problemen oplossen die bestaande AI-modellen belemmeren, waaronder het krachtigste bestaande OpenAI-model, GPT-4o. In plaats van het antwoord in één stap te krijgen, zoals een groot taalmodel gewoonlijk doet, denkt het over het probleem na, effectief hardop denkend zoals iemand dat zou kunnen, voordat het tot het juiste resultaat komt.

“Dat beschouwen wij als een nieuw paradigma in deze modellen”, vertelt Mira Murati, Chief Technology Officer van OpenAI, aan WIRED. “Het is veel beter in het oplossen van zeer complexe redeneringstaken.”

Het nieuwe model kreeg binnen OpenAI de codenaam Strawberry en is geen opvolger van GPT-4o, maar eerder een aanvulling daarop, aldus het bedrijf.

Murati zegt dat OpenAI momenteel zijn volgende grote model bouwt, de GPT-5, die aanzienlijk groter zal zijn dan zijn voorganger. Maar hoewel het bedrijf nog steeds gelooft dat schaal zal helpen nieuwe mogelijkheden van AI te ontsluiten, zal de GPT-5 waarschijnlijk de redeneertechnologie bevatten die vandaag is onthuld. “Er zijn twee paradigma’s”, zegt Murati. “Het schaalparadigma en dit nieuwe paradigma. Wij verwachten ze bij elkaar te brengen.”

LLM’s halen hun antwoorden doorgaans uit enorme neurale netwerken die worden gevoed door enorme hoeveelheden trainingsgegevens. Ze vertonen misschien opmerkelijke taalkundige en logische vaardigheden, maar worstelen traditioneel met verrassend eenvoudige problemen, zoals rudimentaire wiskundevragen waarbij redenering betrokken is.

Murati zegt dat OpenAI o1 gebruikmaakt van versterkend leren, waarbij het model positieve feedback krijgt als het correcte antwoorden krijgt en negatieve feedback als dat niet het geval is, om het gevolgtrekkingsproces te verbeteren. “Het model scherpt zijn denken aan en verfijnt de strategieën die het gebruikt om tot antwoorden te komen”, zegt ze. Versterkend leren heeft computers in staat gesteld games met bovenmenselijke vaardigheden te spelen en nuttige taken uit te voeren, zoals het ontwerpen van computerchips. Techniek is ook een belangrijk ingrediënt om van LLM een nuttige en goed opgevoede chatbot te maken.

Mark Chen, vice-president onderzoek bij OpenAI, demonstreerde het nieuwe model aan WIRED en gebruikte het om verschillende problemen op te lossen die zijn vorige model, de GPT-4o, niet kon. Het bevatte een scheikundevraag voor gevorderden en de volgende wiskundepuzzel: “De prinses is zo oud als de prins zal zijn als de prinses twee keer zo oud is als de prins als de leeftijd van de prinses de helft was van hun huidige leeftijd. Hoe oud zijn de prins en prinses?” (Het juiste antwoord is dat de prins 30 is en de prinses 40).

“De [new] het model leert voor zichzelf te denken, in plaats van te proberen de manier te imiteren waarop mensen zouden denken”, zoals een conventionele LLM doet, zegt Chen.

OpenAI zegt dat zijn nieuwe model aanzienlijk beter presteert op een aantal probleemsets, waaronder die gericht op coderen, wiskunde, natuurkunde, biologie en scheikunde. Op het American Invitational Mathematics Examination (AIME), een test voor wiskundestudenten, had de GPT-4o gemiddeld 12 procent van de problemen, terwijl de o1 83 procent correct had, aldus het bedrijf.