Google DeepMind is een stap dichter bij het kraken van het hoogste niveau van de wiskunde | Kunstmatige intelligentie (AI)

Hoewel computers gemaakt zijn om sneller te rekenen dan welk mens dan ook zou kunnen, blijft het hoogste niveau van formele wiskunde een exclusief menselijk domein. Maar de vooruitgang van onderzoekers van Google DeepMind heeft AI-systemen dichter dan ooit bij het verslaan van de beste menselijke wiskundigen in hun eigen spel gebracht.

Een paar nieuwe systemen, AlphaProof en AlphaGeometry 2 genaamd, werkten samen om vragen op te lossen van de Internationale Wiskundeolympiade, een wereldwijde wiskundewedstrijd voor middelbare scholieren die sinds 1959 wordt gehouden. De Olympiade heeft elk jaar de vorm van zes verbazingwekkend moeilijke vragen, die onderwerpen als algebra, meetkunde en getaltheorie bestrijken. Als je een gouden medaille wint, behoor je tot de beste jonge wiskundigen ter wereld.

De gecombineerde inspanningen van de twee systemen van DeepMind waren niet helemaal in die klasse. Nadat hun antwoorden werden beoordeeld door Prof. één punt minder dan goud.

In tegenstelling tot de menselijke wiskundige waren de systemen foutloos of hopeloos. Ze behaalden perfecte cijfers voor elke vraag die ze oplosten, maar voor twee van de zes vragen konden ze niet eens beginnen met het vinden van het antwoord. Bovendien had DeepMind, in tegenstelling tot zijn menselijke concurrenten, geen tijdslimiet. Terwijl studenten negen uur de tijd kregen om problemen aan te pakken, kostte het de systemen van DeepMind drie dagen 24 uur per dag werk om de ene vraag op te lossen, ondanks dat ze binnen enkele seconden een andere oversloegen.

De twee systemen die aan de uitdaging werkten, verschilden sterk van elkaar. AlphaProof, dat drie problemen oploste, werkt door een groot taalmodel – van het type dat wordt gebruikt in consumentenchatbots – te koppelen aan een gespecialiseerde ‘reinforcement learning’-aanpak, zoals degene die DeepMind gebruikte om het bordspel Go op te lossen. De truc is om een reeds bestaande aanpak te gebruiken die ‘formele wiskunde’ wordt genoemd, een reeks regels waarmee je een wiskundig bewijs kunt schrijven als een programma dat alleen kan worden uitgevoerd als het waar is.

“Wat we proberen te doen is een brug slaan tussen deze twee gebieden”, zegt Thomas Hubert, hoofd van AlphaProof, “zodat we kunnen profiteren van de garanties die gepaard gaan met formele wiskunde en de gegevens die beschikbaar zijn in de informele wiskunde.” Na getraind te zijn in een groot aantal in het Engels geschreven wiskundige problemen, gebruikte AlphaProof zijn kennis om specifieke bewijzen in een formele taal te genereren. Omdat dat bewijs betrouwbaar waar kan zijn of niet, is het mogelijk om het systeem te leren verbeteren. De aanpak kan moeilijke problemen oplossen, maar is niet altijd snel: hoewel het veel beter is dan eenvoudig vallen en opstaan, duurde het drie dagen om het juiste formele model te vinden voor een van de moeilijkste vragen in de uitdaging.

Een ander systeem, AlphaGeometry 2, combineert op vergelijkbare wijze een taalmodel met een meer wiskundig gerichte benadering. Maar zijn succes op het kleinere gebied van geometrische problemen was verbazingwekkend: hij loste zijn probleem in slechts 16 seconden op. En, zegt Gowers, hij koos daarvoor een verrassende weg. “Er waren enkele legendarische voorbeelden [computer-aided] bewijs dat langer is dan Wikipedia. Dat was het niet: we hebben het over een hele korte human-style score.”

Het hoofd van AlphaGeometry 2, Thang Luong, beschreef het resultaat als vergelijkbaar met de beroemde “37 zet” in de historische overwinning van DeepMind op Go, toen het AI-systeem een zet deed waar geen mens aan had gedacht en doorging naar de overwinning. Het bewijs van AlphaGeometry 2 bestond uit het construeren van een cirkel rond een ander punt en het vervolgens gebruiken van die cirkel om het algemene antwoord te bewijzen. “Onze expert begreep aanvankelijk niet helemaal waarom hij dat punt überhaupt had geconstrueerd”, zei Luong. “Maar nadat we naar de oplossing hadden gekeken, zijn er echt veel driehoeken met elkaar verbonden, en ze vonden de oplossing echt heel elegant.”

AlphaGeometry 2 gemakkelijkste vraag…

Laten abc een driehoek zijn met AB < AC < BC. Laat het middelpunt en de ingeschreven cirkel de driehoek zijn abc zijn I En ω, dat is. Laten X een punt op de lijn zijn BC anders dan C dus de lijn gaat voorbij X evenwijdig aan AC raakt aan ω. Op dezelfde manier, laat Y een punt op de lijn zijn BC anders dan B dus de lijn gaat voorbij Y evenwijdig aan AB raakt aan ω. Laten AI snij de ingeschreven cirkel van de driehoek abc opnieuw coderen P ≠ EEN. Laten K En L wees het midden AC En ABdat is,

Bewijs dat ∠KIL + ∠YPX = 180◦.

Opgelost binnen 19 seconden.

sla de nieuwsbriefpromotie over

…en het moeilijkste is AlphaProof

Snail Turbo speelt een bordspel met 2024 rijen en 2023 kolommen. Er zijn verborgen monsters in cellen 2022. In eerste instantie weet Turbo niet waar de monsters zijn, maar hij weet dat er precies één monster in elke rij staat, behalve de eerste en laatste rij, en dat elke kolom maximaal één monster bevat.

Turbo doet een reeks pogingen om van de eerste rij naar de laatste rij te gaan. Bij elke poging kiest hij ervoor om bij een willekeurige cel in de eerste rij te beginnen en gaat dan herhaaldelijk naar de aangrenzende cel die een gemeenschappelijke zijde deelt. (Hij mag terugkeren naar een eerder bezochte cel.) Als hij een cel met een monster bereikt, eindigt zijn poging en keert hij terug naar de eerste rij om een nieuwe poging te beginnen. Monsters bewegen niet en Turbo onthoudt of elke cel die hij bezoekt een monster bevat of niet. Als hij een vakje in de laatste rij bereikt, eindigt zijn poging en is het spel afgelopen.

Geef de minimumwaarde op N waarvoor Turbo een strategie heeft die garandeert dat je de laatste rij bereikt Ne poging of eerder, ongeacht de locatie van het monster.

Een das.