Onzin gecreëerd door het lekken van kunstmatige intelligentie in wetenschappelijke tijdschriften

In februari kroop op de een of andere manier een absurde, door AI gegenereerde rattenpenis de inmiddels gepensioneerde binnen Grenzen in cel- en ontwikkelingsbiologie artikel. Nu lijkt het erop dat vreemde travestie misschien wel een bijzonder luid voorbeeld is van een hardnekkiger probleem dat in de wetenschappelijke literatuur naar voren komt. Tijdschriften bevinden zich momenteel op een kruispunt over de beste manier om te reageren op onderzoekers die populaire maar feitelijk twijfelachtige generatieve AI-tools gebruiken om manuscripten op te stellen of afbeeldingen te produceren. Het ontdekken van bewijs van AI-gebruik is niet altijd eenvoudig, maar een nieuw rapport 404 Media deze week laat zien wat lijkt op tientallen, gedeeltelijk door AI gegenereerde, gepubliceerde artikelen die zich in het volle zicht verbergen. Dood geven? Algemeen gesproken, door de computer gegenereerd jargon.

404 Media doorzocht de door AI gegenereerde zinsnede “Sinds mijn laatste kennisupdate” in de openbare database van Google Scholar en vond naar verluidt 115 verschillende artikelen die leken te vertrouwen op het kopiëren en plakken van de uitvoer van het AI-model. Die reeks woorden is een van de vele zinsneden die vaak worden gegenereerd door grote taalmodellen zoals ChatGPT van OpenAI. In dit geval verwijst ‘kennisupdate’ naar de periode waarin de referentiegegevens van het model worden bijgewerkt. Chatten. Andere veel voorkomende uitdrukkingen voor generatieve AI zijn onder meer “Als een taalmodel van AI” en “een reactie regenereren”. Buiten de academische literatuur zijn deze AI-artefacten verspreid verschenen in Amazon-productrecensies en sociale-mediaplatforms.

Verschillende artikelen die hij citeert 404 Media Het leek AI-tekst rechtstreeks te kopiëren naar peer-reviewed artikelen die bedoeld waren om complexe onderzoeksonderwerpen zoals kwantumverstrengeling en de prestaties van lithium-metaalbatterijen uit te leggen. Andere voorbeelden van tijdschriftartikelen die de veel voorkomende generatieve AI-uitdrukking ‘Ik heb geen toegang tot realtime gegevens’ lijken te bevatten, werden dit weekend ook gedeeld op X, voorheen Twitter. Tenminste enkele van de voorbeelden waar hij naar keek PopSci lijkt verband te houden met AI-modelonderzoek. Met andere woorden: AI-uitingen waren in die gevallen onderdeel van het onderwerp.

Het wordt erger. Blijkbaar verschijnen er, als je zoekt naar ‘sinds mijn laatste kennisupdate’ of ‘geen toegang tot realtime gegevens’ op Google Scholar, talloze door AI gegenereerde artikelen. Dit is werkelijk de slechtste tijdlijn. pic.twitter.com/YXZziarUSm

— Leven na mijn doctoraat (@LifeAfterMyPhD) 18 maart 2024

Hoewel verschillende van deze uitdrukkingen in respectabele, bekende tijdschriften zijn verschenen, 404 Media beweert dat de meeste voorbeelden die hij vond afkomstig zijn van kleine, zogenaamde ‘papierfabrieken’ die gespecialiseerd zijn in het snel publiceren van artikelen, vaak tegen betaling en zonder wetenschappelijk onderzoek of nauwgezette peer review. Onderzoekers beweren dat de proliferatie van deze papierfabrieken de afgelopen jaren heeft bijgedragen aan een toename van valse of geplagieerde academische bevindingen.

Onbetrouwbare, door AI gegenereerde claims kunnen tot meer terugroepacties leiden

Recente voorbeelden van ogenschijnlijk door AI gegenereerde tekst in gepubliceerde tijdschriftartikelen komen te midden van een golf van intrekkingen in het algemeen. Onlangs Natuur Uit een analyse van vorig jaar gepubliceerde onderzoeksartikelen kwamen meer dan 10.000 opnames naar voren, meer dan enig jaar eerder gemeten. Hoewel de meeste van deze gevallen geen verband hielden met door AI gegenereerde inhoud, vrezen bezorgde onderzoekers al jaren dat het toegenomen gebruik van deze tools ertoe zou kunnen leiden dat meer nep- of misleidende inhoud het beoordelingsproces doorstaat. In het beruchte geval van rattenpenissen zijn bizarre beelden en onzinnige, door AI gegenereerde labels als ‘dissiliced’ en ‘testtomcels’ aan meerdere recensenten ontsnapt, hetzij onopgemerkt of niet gerapporteerd.

Er zijn goede redenen om aan te nemen dat artikelen die worden ingediend met door AI gegenereerde tekst vaker voorkomen. In 2014 verwijderden de tijdschriften IEEE en Springer samen meer dan 120 artikelen die door AI gegenereerde onzin bevatten. De prevalentie van door AI gegenereerde tekst in tijdschriften is de afgelopen tien jaar vrijwel zeker toegenomen, omdat geavanceerdere en gemakkelijker te gebruiken tools zoals OpenAI’s ChatGPT op grotere schaal zijn geaccepteerd.

Een door hem uitgevoerd onderzoek van een wetenschapper uit 2023 Natuur ontdekte dat 1.600 respondenten, of ongeveer 30% van de ondervraagden, toegaven AI-tools te gebruiken om hen te helpen manuscripten te schrijven. En hoewel uitdrukkingen als ‘Als een AI-algoritme’ flauwekul zijn die de oorsprong van het grote zinstaalmodel (LLM) onthullen, zijn veel andere, subtielere toepassingen van de technologie moeilijker uit te roeien. Detectiemodellen die worden gebruikt om door AI gegenereerde tekst te identificeren, zijn frustrerend ontoereikend gebleken.

Voorstanders van het toestaan van door AI gegenereerde tekst zeggen in sommige gevallen dat dit niet-moedertaalsprekers kan helpen de taalbarrières te begrijpen en mogelijk te verminderen. Anderen beweren dat de tools, als ze op verantwoorde wijze worden gebruikt, de publicatietijden kunnen versnellen en de algehele efficiëntie kunnen vergroten. Maar het publiceren van onnauwkeurige gegevens of verzonnen bevindingen die door deze modellen worden gegenereerd, riskeert op de lange termijn de reputatie van het tijdschrift te schaden. Een recent artikel gepubliceerd in Actuele rapporten over osteoporose Uit het vergelijken van rapporten van door mensen geschreven en door ChatGPT gegenereerde recensieartikelen bleek dat door AI gegenereerde voorbeelden vaak gemakkelijker te lezen waren. Tegelijkertijd waren de door AI gegenereerde rapporten ook gevuld met onnauwkeurige referenties.

“ChatGPT was behoorlijk overtuigend met enkele van de valse uitspraken die het deed, om eerlijk te zijn”, zei Melissa Kacena, professor aan de Indiana University School of Medicine en studieauteur in een recent interview met Tijd. “Hij gebruikte de juiste syntaxis en integreerde deze met de juiste uitspraken in de paragraaf, dus soms waren er geen waarschuwingsbellen.”

Tijdschriften moeten het eens worden over gemeenschappelijke normen rond generatieve AI

Grote uitgevers zijn nog steeds verdeeld over het al dan niet toestaan van door AI gegenereerde tekst. Vanaf 2022 verschijnen de tijdschriften die het uitgeeft Wetenschap het gebruik van tekst of afbeeldingen gegenereerd door kunstmatige intelligentie die niet eerder door de redactie is geaccepteerd, is ten strengste verboden. Natuuraan de andere kant bracht het vorig jaar een verklaring uit waarin stond dat het geen door AI gegenereerde afbeeldingen of video’s in zijn tijdschriften zou toestaan, maar zou door AI gegenereerde tekst toestaan in bepaalde scenario’s. JAMA staat momenteel door AI gegenereerde tekst toe, maar vereist dat onderzoekers bekendmaken wanneer deze verschijnt en welke specifieke modellen zijn gebruikt.

Deze beleidsafwijkingen kunnen onnodige verwarring veroorzaken bij zowel de onderzoekers die de artikelen indienen als de reviewers die belast zijn met het doorlichten ervan. Onderzoekers hebben al een stimulans om de tools die ze tot hun beschikking hebben te gebruiken om snel artikelen te publiceren en het totale aantal gepubliceerde artikelen te vergroten. Een overeengekomen standaard rond door AI gegenereerde inhoud in grote tijdschriften zou duidelijke grenzen stellen die onderzoekers moeten volgen. Grotere gevestigde tijdschriften kunnen zich ook verder onderscheiden van minder nauwgezette papierfabrieken door harde grenzen te trekken rond bepaalde toepassingen van de technologie of deze helemaal te verbieden in gevallen waarin ze feitelijke beweringen proberen te doen.