De AI-wetenschapper: tool van Sakana AI zorgt voor controverse

Toen een internationaal team van onderzoekers een ‘kunstmatige intelligentiewetenschapper’ wilde creëren die het hele wetenschappelijke proces zou leiden, wisten ze niet hoe ver ze zouden gaan. Zou het systeem dat ze creëerden werkelijk in staat zijn om interessante hypothesen te genereren, experimenten uit te voeren, resultaten te evalueren en papers te schrijven?

Waar ze uiteindelijk mee uitkwamen, zegt onderzoeker Cong Lu, was een AI-tool die volgens hen gelijkwaardig was aan een vroege doctoraat. student. Hij had ‘een aantal verrassend creatieve ideeën’, zegt hij, maar de goede ideeën werden ruimschoots gecompenseerd door de slechte. Hij had moeite om zijn resultaten samenhangend op te schrijven, en soms zaten de resultaten verkeerd: “Het is niet zo ver verwijderd van een doctoraat. de student doet wilde gissingen over waarom iets werkte”, zegt Lu. En misschien als een vroege Ph.D. een student die de ethiek nog niet begrijpt, verzon soms dingen in zijn papieren, ondanks de inspanningen van de onderzoekers om eerlijk te zijn.

Lu, een postdoctoraal onderzoeker aan de Universiteit van British Columbia, werkte aan het project samen met verschillende andere academici, evenals onderzoekers van de levendige startup Sakana AI in Tokio. Het team publiceerde onlangs een voordruk van het artikel op de ArXiv-server. En hoewel de voordruk een bespreking van beperkingen en ethische overwegingen bevat, bevat het ook behoorlijk grandioos taalgebruik, waarin AI Scientist wordt aangehaald als ‘het begin van een nieuw tijdperk in wetenschappelijke ontdekkingen’ en ‘het eerste alomvattende raamwerk voor volledig automatische wetenschappelijke ontdekkingen, waardoor grote -taallimietmodellen (LLM’s) opschalen om onafhankelijk onderzoek te doen en hun bevindingen te communiceren.”

De AI-wetenschapper lijkt de tijdgeest te vatten. Er is sprake van een golf van enthousiasme voor AI voor de wetenschap, maar sommige critici denken dat die golf niets waardevols over het strand zal spoelen.

Gekke “AI voor wetenschap”.

Dit onderzoek maakt deel uit van een bredere trend van AI voor de wetenschap. Google DeepMind begon de rage waarschijnlijk in 2020 toen het AlphaFold introduceerde, een AI-systeem dat biologen verbaasde door de 3D-structuren van eiwitten met ongekende nauwkeurigheid te voorspellen. Sinds generatieve AI op het toneel verscheen, zijn veel meer grote zakelijke spelers erbij betrokken geraakt. Tarek Besold, senior wetenschapper bij SonyAI en leider van het AI for Scientific Discovery-programma van het bedrijf, zegt dat AI voor de wetenschapeen doel waar de AI-gemeenschap zich achter kan scharen in een poging om de onderliggende technologie vooruit te helpen, maar – nog belangrijker – om de mensheid te helpen enkele van de meest urgente vragen van onze tijd op te lossen.”

De beweging heeft echter ook critici. Kort nadat een Google DeepMind-paper uit 2023 was gepubliceerd waarin werd beweerd 2,2 miljoen nieuwe kristalstructuren te hebben ontdekt (“equivalent aan bijna 800 jaar aan kennis”), analyseerden twee materiaalwetenschappers een willekeurige steekproef van voorgestelde structuren en zeiden dat ze “schaars bewijs vonden voor verbindingen die voldoen aan de trifecta van nieuwheid, geloofwaardigheid en bruikbaarheid.” Met andere woorden: AI kan snel veel resultaten genereren, maar die resultaten zijn mogelijk niet nuttig.

Hoe AI-wetenschappers werken

In het geval van de AI-wetenschapper testten Lu en zijn medewerkers hun systeem alleen op computergebruik, waarbij ze vroegen om onderwerpen te onderzoeken die verband hielden met grote taalmodellen, die chatbots als ChatGPT aandrijven, en ook de AI-wetenschapper zelf, en diffusiemodellen. die worden aangestuurd door beeldgeneratoren zoals DALL-E.

De eerste stap van een AI-wetenschapper is het genereren van hypothesen. Gegeven de code voor het model dat hij onderzoekt, genereert hij vrijuit ideeën voor experimenten die hij zou kunnen uitvoeren om de prestaties van het model te verbeteren, en evalueert hij elk idee op basis van interessantheid, nieuwigheid en haalbaarheid. Het kan deze stap herhalen en variaties genereren op de hoogst gewaardeerde ideeën. Vervolgens controleert hij in Semantic Scholar of zijn voorstellen te veel op bestaand werk lijken. Vervolgens gebruikt hij een codeerassistent genaamd Aider om zijn code uit te voeren en registreert hij de resultaten in een experimenteel logformaat. Het kan die resultaten gebruiken om ideeën te genereren voor volgende experimenten.

Verschillende gekleurde vakken met pijlen en zwarte tekst op een witte achtergrondWetenschapper AI is een end-to-end wetenschappelijk ontdekkingsinstrument dat wordt aangedreven door grote taalmodellen. Universiteit van Brits-Columbia

De volgende stap is dat de AI-wetenschapper zijn resultaten opschrijft in een paper met behulp van een sjabloon gebaseerd op de conferentierichtlijnen. Maar, zegt Lu, het systeem heeft moeite met het schrijven van een samenhangend artikel van negen pagina’s waarin de resultaten worden uitgelegd: “de schrijffase kan net zo moeilijk zijn om goed te krijgen als de experimentfase”, zegt hij. Daarom verdeelden de onderzoekers het proces in vele stappen: een AI-wetenschapper schreef sectie voor sectie en controleerde elke sectie met de andere om zowel dubbele als tegenstrijdige informatie te verwijderen. Het gaat ook opnieuw door Semantic Scholar om citaten te vinden en een bibliografie te maken.

Maar dan is er nog het probleem van de hallucinaties – de technische term voor een AI die dingen verzint. Lu zegt dat ook al hebben ze de AI-wetenschapper opgedragen alleen cijfers uit zijn experimentlogboek te gebruiken, “het soms nog steeds weerbarstig zal zijn.” Lu zegt dat het model minder dan 10 procent van de tijd ongehoorzaam was, maar “wij denken dat 10 procent waarschijnlijk onaanvaardbaar is.” Hij zegt dat ze een oplossing onderzoeken, zoals het instrueren van het systeem om elk nummer in zijn papier te matchen met waar het in het experimentele logboek verscheen. Maar het systeem maakte ook minder voor de hand liggende fouten in redeneren en begrijpen, die moeilijker lijken te corrigeren.

En in een wending die je misschien niet had zien aankomen, voegt de AI-wetenschapper zelfs een peer review-module toe om het werk dat hij heeft geproduceerd te beoordelen. “We wisten altijd al dat we een vorm van automatisering wilden [evaluation] zodat we geen uren hoeven te besteden aan het herschrijven van alle manuscripten”, zegt Lu. En hoewel hij opmerkt dat “er altijd de zorg is geweest dat we ons eigen huiswerk beoordelen”, zegt hij dat ze hun beoordelaar hebben gemodelleerd naar de richtlijnen van recensenten voor de toonaangevende AI-conferentie NeurIPS en ontdekten dat deze over het algemeen scherper was dan menselijke beoordelaars. In theorie zou de peer review-functie gebruikt kunnen worden als leidraad voor de volgende ronde van experimenten.

Kritiek op AI-wetenschappers

Terwijl de onderzoekers hun AI-wetenschapper beperkten tot machine learning-experimenten, zegt Lu dat het team een ​​aantal interessante gesprekken had met wetenschappers op andere gebieden. In theorie, zegt hij, zou een AI-wetenschapper kunnen helpen op elk gebied waar simulatie-experimenten kunnen worden uitgevoerd. “Sommige biologen hebben gezegd dat ze veel dingen kunnen doen met silicium”, zegt hij, waarbij hij ook quantum computing en materiaalkunde noemt als mogelijke onderzoeksgebieden.

Sommige critici van de AI for Science-beweging zouden dat brede optimisme misschien ter discussie kunnen stellen. Eerder dit jaar publiceerde Jennifer Listgarten, hoogleraar computationele biologie aan UC Berkeley, een artikel in Natuurlijke biotechnologie met het argument dat AI geen vooruitgang zal opleveren in meerdere wetenschappelijke domeinen. In tegenstelling tot de AI-gebieden van natuurlijke taalverwerking en computervisie, zo schreef ze, beschikken de meeste wetenschappelijke gebieden niet over de enorme hoeveelheden openbaar beschikbare gegevens die nodig zijn om modellen te trainen.

Twee andere onderzoekers die de wetenschappelijke praktijk bestuderen, antropoloog Lisa Messeri van Yale University en psycholoog MJ Crockett van Princeton University, publiceerden in 2024 een artikel. Natuur die de hype rond AI voor de wetenschap wilde doorbreken. Toen hen om commentaar werd gevraagd over deze AI-wetenschapper, herhaalden de twee hun bezorgdheid over het behandelen van “AI-producten als autonome onderzoekers.” Ze betogen dat dit het risico met zich meebrengt dat de reikwijdte van het onderzoek wordt beperkt tot vragen die geschikt zijn voor AI, en dat de diversiteit aan perspectieven die echte innovatie aandrijven, verloren gaat. “Al klinkt de productiviteit die ‘The AI ​​Scienceist’ belooft voor sommigen wellicht aantrekkelijk”, zeggen ze IEEE-spectrum“papiermaken en kennisproductie zijn niet hetzelfde, en als je dit verschil vergeet, loop je het risico dat je meer gaat produceren terwijl je minder begrijpt.”

Maar anderen zien de AI-wetenschapper als een stap in de goede richting. SonyAI’s Besold zegt dat hij gelooft dat het een geweldig voorbeeld is van hoe de huidige AI wetenschappelijk onderzoek kan ondersteunen wanneer het wordt toegepast op het juiste domein en de juiste taken. “Dit zou een van de vele vroege prototypes kunnen worden die mensen kunnen helpen te conceptualiseren wat mogelijk is als AI wordt toegepast in de wereld van wetenschappelijke ontdekkingen”, zegt hij.

Wat biedt de toekomst voor de AI-wetenschapper

Lu zegt dat het team van plan is de AI-wetenschapper verder te ontwikkelen en zegt dat er veel laaghangend fruit is terwijl ze werken aan het verbeteren van de prestaties. Wat betreft de vraag of dergelijke AI-tools een belangrijke rol zullen spelen in het wetenschappelijke proces: “Ik denk dat de tijd zal leren waar deze modellen goed voor zijn”, zegt Lu. Het kan zijn, zegt hij, dat dergelijke hulpmiddelen nuttig kunnen zijn in de vroege stadia van een onderzoeksproject, wanneer de onderzoeker een idee probeert te krijgen van de vele mogelijke onderzoekslijnen – hoewel critici eraan toevoegen dat we zullen moeten wachten. voor toekomstige studies om te bepalen of deze hulpmiddelen werkelijk alomvattend genoeg en onbevooroordeeld zijn om nuttig te zijn.

Of, zegt Lu, of de modellen zodanig kunnen worden verbeterd dat ze overeenkomen met de prestaties“Een solide derdejaars Ph.D. student”, zouden ze een krachtvermenigvuldiger kunnen zijn voor iedereen die een idee probeert te realiseren (tenminste, zolang het idee zich in een AI-vriendelijk domein bevindt). “Op dat moment kan iedereen hoogleraar zijn en een onderzoeksprogramma leiden”, zegt Lu. “Het is een spannend vooruitzicht waar ik naar uitkijk.”

Uit artikelen op uw website

Gerelateerde artikelen op internet