DeepMind AI lost moeilijke geometrische problemen uit de Wiskundeolympiade op

Bij geometrieproblemen gaat het om het bewijzen van feiten over hoeken of lijnen in ingewikkelde vormen

Google Deepmind

AI van Google DeepMind kan sommige geometrievragen op de Internationale Wiskunde Olympiade (IMO) bijna net zo goed oplossen als de beste menselijke concurrenten.

“De resultaten van AlphaGeometry zijn verbluffend en adembenemend”, zegt Gregor Dolinar, president van IMO. “Het lijkt erop dat AI veel eerder de gouden medaille van de IMO zal winnen dan zelfs maar een paar maanden geleden werd gedacht.”

IMO, bedoeld voor middelbare scholieren, is een van de moeilijkste wiskundecompetities ter wereld. Het correct beantwoorden van de vragen vereist wiskundige creativiteit waar AI-systemen al lang mee worstelen. GPT-4 bijvoorbeeld, dat op andere domeinen uitzonderlijk redeneervermogen heeft laten zien, scoort 0 procent op IMO-geometrievragen, terwijl zelfs gespecialiseerde AI’s moeite hebben om even goed te antwoorden als de gemiddelde concurrentie.

Dit komt deels door de moeilijkheid van het probleem, maar ook door het gebrek aan trainingsgegevens. De wedstrijd wordt sinds 1959 jaarlijks gehouden en elke editie bestaat uit slechts zes vragen. Sommige van de meest succesvolle AI-systemen vereisen echter miljoenen of miljarden datapunten. Meetkundeproblemen, die een of twee van de zes vragen vormen en betrekking hebben op het bewijzen van feiten over hoeken of lijnen in ingewikkelde vormen, zijn bijzonder moeilijk te vertalen naar een computervriendelijk formaat.

Thang Luong van Google DeepMind en zijn collega’s hebben dit probleem omzeild door een tool te maken die honderden miljoenen machinaal leesbare geometrische bewijzen kan genereren. Toen ze een AI genaamd AlphaGeometry trainden met behulp van deze gegevens en deze testten op 30 IMO-geometrievragen, beantwoordde deze er 25 correct, vergeleken met een geschatte score van 25,9 voor een gouden IMO-medaillewinnaar op basis van hun resultaten in de competitie.

“De onze [current] AI-systemen worstelen nog steeds met het vermogen om dingen als diep redeneren te doen, waarbij we heel veel stappen vooruit moeten plannen en het grote geheel moeten zien. Daarom is wiskunde zo’n belangrijke maatstaf en test voor ons in onze zoektocht naar kunstmatige algemene inlichtingen.”, zei Luong op een persconferentie.

AlphaGeometry bestaat uit twee delen, die Luong vergelijkt met verschillende denksystemen in de hersenen: een snel, intuïtief systeem en een langzamer, meer analytisch systeem. Het eerste, intuïtieve deel is een taalmodel, vergelijkbaar met de technologie achter ChatGPT, genaamd GPT-f. Het is getraind op basis van miljoenen gegenereerde bewijzen en suggereert welke stellingen en argumenten je als volgende voor een probleem kunt proberen. Zodra het de volgende stap suggereert, gebruikt het langzamere maar zorgvuldigere mechanisme van ‘symbolisch redeneren’ logische en wiskundige regels om het door GPT-f voorgestelde argument volledig te construeren. De twee systemen werken dan samen en schakelen op elkaar over totdat het probleem is opgelost.

Hoewel deze methode buitengewoon succesvol is bij het oplossen van geometrische problemen van de IMO, zijn de antwoorden die ermee worden verkregen doorgaans langer en minder ‘mooi’ dan menselijke bewijzen, zegt Luong. Het kan echter ook dingen opmerken die mensen missen. Hij vond bijvoorbeeld een betere en algemenere oplossing voor de IMO-vraag uit 2004 dan de gegeven officiële antwoorden.

Het op deze manier oplossen van geometrische IMO-problemen is indrukwekkend, zegt Yang-Hui He van het London Institute of Mathematical Sciences, maar het systeem is inherent beperkt in de wiskunde die het kan gebruiken, omdat IMO-problemen oplosbaar moeten zijn met behulp van stellingen die op bachelorniveau zijn geleerd. Het uitbreiden van de hoeveelheid wiskundige kennis waartoe AlphaGeometry toegang heeft, zou het systeem kunnen verbeteren of zelfs kunnen helpen nieuwe wiskundige ontdekkingen te doen, zegt hij.

Het zou ook interessant zijn om te zien hoe AlphaGeometry omgaat met het niet weten wat het moet bewijzen, omdat wiskundig inzicht vaak voortkomt uit het onderzoeken van stellingen zonder bewijzen, zegt hij. “Als je niet weet wat je eindpunt is, kun je het binnen de set van allemaal vinden [mathematical] wegen, is er een stelling die eigenlijk interessant en nieuw is?”

Vorig jaar kondigde algoritmisch handelsbedrijf XTX Markets een prijzenpot van $10 miljoen aan voor wiskundige AI-modellen, met een hoofdprijs van $5 miljoen voor het eerste publiekelijk gedeelde AI-model dat een gouden IMO-medaille kan winnen, evenals kleinere voortgangsprijzen voor belangrijke mijlpalen. .

“Het oplossen van het IMO-geometrieprobleem is een van de geplande voortgangsbeloningen die worden ondersteund door het AIMO Challenge Fund ter waarde van $10 miljoen”, zegt Alex Gerko van XTX Markets. “Het is opwindend om vooruitgang in de richting van dit doel te zien, nog voordat we de volledige details van deze voortgangsprijs hebben aangekondigd, waaronder het openstellen van het model en de gegevens, evenals het oplossen van een echt geometrieprobleem tijdens een live IMO-wedstrijd.”

DeepMind weigerde te zeggen of het van plan is om AlphaGeometry deel te laten nemen aan een live IMO-wedstrijd of dat het het systeem gaat uitbreiden om andere niet op geometrie gebaseerde IMO-problemen op te lossen. DeepMind heeft echter eerder deelgenomen aan openbare wedstrijden om de vouwing van eiwitten te voorspellen om zijn AlphaFold-systeem te testen.

Onderwerpen: