DeepMind AI met ingebouwde feitencontrole doet wiskundige ontdekkingen

DeepMind FunSearch AI kan wiskundige problemen aan

alengo/Getty Images

Google DeepMind beweert de eerste wetenschappelijke doorbraak te hebben gemaakt met een AI-chatbot door fact-checking in te bouwen om nutteloze output eruit te filteren, waardoor alleen betrouwbare oplossingen overblijven voor wiskunde- of computerproblemen.

Eerdere prestaties van DeepMind, zoals het gebruik van kunstmatige intelligentie om de timing of de vorm van eiwitten te voorspellen, zijn gebaseerd op modellen die speciaal voor de uit te voeren taak zijn gemaakt en die zijn getraind op nauwkeurige en specifieke gegevens. Grote taalmodellen (LLM’s), zoals GPT-4 en Google Gemini, worden in plaats daarvan getraind op grote hoeveelheden ongelijksoortige gegevens om een breed scala aan mogelijkheden te creëren. Maar die aanpak maakt ze ook vatbaar voor ‘hallucinaties’, een term die onderzoekers gebruiken om valse resultaten te verkrijgen.

Gemini – die eerder deze maand werd aangekondigd – heeft al een voorliefde voor hallucinaties getoond, waarbij hij zelfs simpele feiten krijgt de winnaars van de Oscars van dit jaar hebben het mis. De vorige AI-aangedreven zoekmachine van Google maakte zelfs fouten in het advertentiemateriaal voor zijn eigen lancering.

Een veel voorkomende oplossing voor dit fenomeen is het toevoegen van een laag boven de AI die de uitvoer controleert op nauwkeurigheid voordat deze aan de gebruiker wordt doorgegeven. Maar het creëren van een alomvattend vangnet is een uiterst moeilijke taak, gezien het brede scala aan onderwerpen waar chatbots naar kunnen vragen.

Alhussein Fawzi van Google DeepMind en zijn collega’s creëerden een algemene LLM genaamd FunSearch, gebaseerd op het PaLM2-model van Google met een laag voor feitencontrole, die zij een ‘evaluator’ noemen. Het model beperkt zich tot het leveren van computercode die wiskunde- en computerproblemen oplost, wat volgens DeepMind de taak veel gemakkelijker maakt omdat deze nieuwe ideeën en oplossingen inherent en snel verifieerbaar zijn.

De basis-AI kan nog steeds hallucineren en onnauwkeurige of misleidende resultaten opleveren, maar de beoordelaar filtert de verkeerde resultaten eruit en laat alleen betrouwbare, potentieel bruikbare concepten over.

“We denken dat misschien 90 procent van wat LLM produceert niet nuttig zal zijn”, zegt Fawzi. “Gegeven de oplossing van de kandidaat is het voor mij heel makkelijk om te zeggen of het daadwerkelijk de juiste oplossing is en om de oplossing te beoordelen, maar het is eigenlijk lastig om tot een oplossing te komen. En dus passen wiskunde en informatica bijzonder goed bij elkaar.”

DeepMind beweert dat het model nieuwe wetenschappelijke inzichten en ideeën kan genereren – iets wat LLM’s nog niet eerder hebben gedaan.

Om te beginnen ontvangt FunSearch een probleem en een zeer basale oplossing in de broncode als invoer, en genereert vervolgens een database met nieuwe oplossingen die controleert op nauwkeurigheid. De beste vertrouwde oplossingen worden als input teruggekoppeld naar de LLM, waarbij hem wordt gevraagd de ideeën te verfijnen. DeepMind zegt dat het systeem miljoenen potentiële oplossingen voortbrengt, die uiteindelijk samenkomen in een efficiënt resultaat – soms zelfs beter dan de bekendste oplossing.

Voor wiskundige problemen schrijft het model computerprogramma’s die oplossingen kunnen vinden in plaats van te proberen het probleem direct op te lossen.

Fawzi en zijn collega’s daagden FunSearch uit om oplossingen te vinden voor een probleem met beperkingen, waarbij patronen van punten moeten worden bepaald waarbij drie punten geen rechte lijn vormen. Het probleem wordt snel rekenintensiever naarmate het aantal punten toeneemt. De AI vond een oplossing bestaande uit 512 punten in acht dimensies, groter dan eerder bekend.

Toen FunSearch werd belast met het oplossen van het binning-probleem, waarbij het doel is om objecten van verschillende groottes efficiënt in containers te plaatsen, vond hij oplossingen die beter presteren dan conventionele algoritmen – een resultaat dat onmiddellijke toepassingen heeft voor transport- en logistieke bedrijven. DeepMind zegt dat FunSearch kan leiden tot verbeteringen in veel wiskunde- en computerproblemen.

Mark Lee van de Universiteit van Birmingham, VK, zegt dat de volgende doorbraak in AI niet zal komen van het opschalen van LLM naar steeds grotere formaten, maar van het toevoegen van lagen om nauwkeurigheid te garanderen, zoals DeepMind deed met FunSearch.

“De kracht van het taalmodel is het vermogen om dingen voor te stellen, maar het probleem zijn de hallucinaties”, zegt Lee. ‘En dit onderzoek lost dat probleem op: het beteugelt het of controleert het op feiten. Dat is een leuk idee.”

Lee zegt dat AI niet moet worden bekritiseerd omdat het grote hoeveelheden onjuiste of nutteloze resultaten oplevert, omdat dat niet veel verschilt van de manier waarop menselijke wiskundigen en wetenschappers werken: ze denken na over ideeën, testen ze en volgen de beste terwijl ze de slechtste terzijde schuiven.

Onderwerpen: