Het behalen van een deel van het medische licentie-examen maakt een ChatGPT nog geen goede arts

Lachende arts die medische resultaten bespreekt met de vrouw. — Toename / Voorlopig blijft “u moet een arts raadplegen” een goed advies.

ChatGPT slaagde erin een aantal tests van het United States Medical Licensing Exam (USMLE) te doorstaan in een onderzoek dat in 2022 werd uitgevoerd. Dit jaar controleerde een team van Canadese medische experts of het goed was in de echte behandeling. En dat gebeurde niet.

ChatGPT vs. Medscape

“Onze bron voor medische vragen was de Medscape-vragenbank”, zegt Amrit Kirpalani, een medisch docent aan de Western University in Ontario, Canada, die leiding gaf aan het nieuwe onderzoek naar de prestaties van ChatGPT als diagnostisch hulpmiddel. De USMLE bestond voornamelijk uit meerkeuzevragen; Medscape beschikt over complete medische cases gebaseerd op patiënten uit de echte wereld, samen met bevindingen van lichamelijk onderzoek, laboratoriumtestresultaten, enz.

Het idee hierachter is om deze gevallen voor artsen een uitdaging te maken vanwege complicaties zoals meerdere comorbiditeiten, waarbij twee of meer ziekten tegelijkertijd aanwezig zijn, en verschillende diagnostische dilemma’s die de juiste antwoorden minder voor de hand liggend maken. Het team van Kirpalani zette 150 van die Medscape-gevallen om in instructies die ChatGPT kon begrijpen en verwerken.

Dit was een beetje een uitdaging omdat OpenAI, het bedrijf dat ChatGPT heeft gemaakt, een beperking heeft op het gebruik ervan voor medisch advies, dus het verzoek om de zaak rechtstreeks te diagnosticeren mislukte. Dit kon echter gemakkelijk worden omzeild door de AI te vertellen dat de diagnoses nodig waren voor een academisch onderzoekspaper dat het team aan het schrijven was. Het team gaf hem vervolgens verschillende mogelijke antwoorden, kopieerde/plakte alle casusinformatie die beschikbaar was op Medscape en vroeg ChatGPT om de redenering achter de door hem gekozen antwoorden te geven.

Het blijkt dat ChatGPT in 76 van de 150 gevallen ongelijk had. Maar de chatbot zou toch goed zijn in het stellen van diagnoses?

Gereedschappen voor speciale doeleinden

Begin 2024 publiceerde Google een onderzoek naar de Articulate Medical Intelligence Explorer (AMIE), een groot taalmodel dat speciaal is gebouwd voor het diagnosticeren van ziekten op basis van gesprekken met patiënten. AMIE presteerde beter dan menselijke artsen bij het diagnosticeren van 303 gevallen uit de New England Journal of Medicine en ClinicoPathologic Conferences. En AMIE is er nog niet uit; Het afgelopen jaar is er nauwelijks een week voorbijgegaan zonder gepubliceerd onderzoek dat aantoont dat AI fantastisch werk levert bij het diagnosticeren van kanker en diabetes, en zelfs bij het voorspellen van mannelijke onvruchtbaarheid op basis van bloedtestresultaten.

Het verschil tussen dergelijke gespecialiseerde medische AI’s en ChatGPT’s ligt echter in de gegevens waarop ze zijn getraind. “Dergelijke AI’s zijn mogelijk getraind op basis van tonnen medische literatuur, en kunnen zelfs worden getraind op vergelijkbare complexe gevallen”, legt Kirpalani uit. “Ze kunnen worden aangepast om medische terminologie te begrijpen, diagnostische tests te interpreteren en patronen in medische gegevens te herkennen die relevant zijn voor specifieke ziekten of aandoeningen. LLM’s voor algemeen gebruik, zoals ChatGPT, zijn daarentegen getraind in een breed scala aan onderwerpen en missen de diepgaande expertise die nodig is voor medische diagnoses.