Chatbotreacties zijn allemaal verzonnen. Deze nieuwe tool kan u helpen erachter te komen welke u kunt vertrouwen.

Het vertrouwde taalmodel vertrouwt op meerdere technieken om de resultaten te berekenen. Ten eerste wordt elke zoekopdracht die bij de tool wordt ingediend, naar verschillende grote taalmodellen verzonden. Cleanlab maakt gebruik van vijf versies van DBRX, een open-source groottaalmodel ontwikkeld door Databricks, een AI-bedrijf gevestigd in San Francisco. (Maar de technologie zal met elk model werken, zegt Northcutt, inclusief Meta Llama-modellen of de OpenAI GPT-serie, de modellen achter ChatpGPT, enz.) Als de reacties van elk van deze modellen hetzelfde of vergelijkbaar zijn, zal dit bijdragen aan een hogere score.

Tegelijkertijd stuurt het vertrouwde taalmodel ook varianten van de oorspronkelijke zoekopdracht naar elk van de DBRX-modellen, waarbij woorden worden vervangen die dezelfde betekenis hebben. Nogmaals, als de antwoorden op synoniemenzoekopdrachten vergelijkbaar zijn, zal dit bijdragen aan een hogere score. “We knoeien op verschillende manieren met ze om verschillende resultaten te krijgen en te kijken of ze het daarmee eens zijn”, zegt Northcutt.

De tool kan er ook voor zorgen dat meerdere modellen antwoorden met elkaar uitwisselen: “Het is zoiets als: ‘Hier is mijn antwoord, wat denk je ervan?’ ‘Dus hier is de mijne, wat denk jij ervan?’ En je laat ze praten.” Deze interacties worden gemonitord en gemeten en verwerkt in het resultaat.

Nick McKenna, een computerwetenschapper bij Microsoft Research in Cambridge, VK, die werkt aan grootschalige taalmodellen voor het genereren van code, is optimistisch dat deze aanpak nuttig zou kunnen zijn. Maar hij betwijfelt of het perfect zal zijn. “Een van de valkuilen die we zien bij modelhallucinaties is dat ze heel subtiel kunnen binnensluipen”, zegt hij.

In een reeks tests met verschillende grote taalmodellen laat Cleanlab zien dat de betrouwbaarheidsscores goed correleren met de nauwkeurigheid van de antwoorden van die modellen. Met andere woorden: scores dichtbij 1 zijn het eens met correcte antwoorden, en scores dichtbij 0 met onjuiste antwoorden. In een andere test ontdekten ze ook dat het gebruik van een betrouwbaar taalmodel met GPT-4 betrouwbaardere antwoorden opleverde dan alleen GPT-4.

Grote taalmodellen genereren tekst door het meest waarschijnlijke volgende woord in een reeks te voorspellen. In toekomstige versies van zijn tool is Cleanlab van plan zijn resultaten nog nauwkeuriger te maken door te vertrouwen op de waarschijnlijkheden die het model gebruikte om die voorspellingen te doen. Het wil ook toegang krijgen tot de numerieke waarden die de modellen aan elk woord in hun vocabulaire toekennen, die ze gebruiken om die kansen te berekenen. Dit detailniveau wordt geboden door bepaalde platforms, zoals Amazon’s Bedrock, die bedrijven kunnen gebruiken om grote taalmodellen uit te voeren.

Cleanlab testte zijn aanpak op gegevens van de Berkeley Research Group. Het bedrijf moest in tienduizenden bedrijfsdocumenten zoeken naar verwijzingen naar kwesties op het gebied van de naleving van de gezondheidszorg. Als u dit handmatig doet, kan er enkele weken getraind personeel nodig zijn. Door documenten te verifiëren met behulp van het vertrouwde taalmodel kon Berkeley Research Group zien welke documenten de chatbot het minst vertrouwde en alleen die verifiëren. Dat verminderde de werkdruk met ongeveer 80%, zegt Northcutt.

In een andere test werkte Cleanlab samen met een grote bank (Northcutt wil het bedrijf niet noemen, maar zegt dat het een concurrent is van Goldman Sachs). Net als bij Berkeley Research Group moest de bank in ongeveer 100.000 documenten naar verwijzingen naar verzekeringsclaims zoeken. Opnieuw verminderde het vertrouwde taalmodel het aantal documenten dat handmatig moest worden gecontroleerd met meer dan de helft.

Elke query meerdere keren uitvoeren via meerdere modellen duurt langer en kost veel meer dan een typische lus met een enkele chatbot. Maar Cleanlab presenteert een betrouwbaar taalmodel als een premiumservice die taken met hoge inzet kan automatiseren die in het verleden ontoegankelijk zouden zijn geweest voor grote taalmodellen. Het idee is niet om bestaande chatbots te vervangen, maar om het werk van menselijke experts te doen. Als de tool de hoeveelheid tijd die je nodig hebt om gekwalificeerde economen of advocaten in te huren, kan terugbrengen tot 2.000 dollar per uur, zullen de kosten de moeite waard zijn, zegt Northcutt.

Op de lange termijn hoopt Northcutt dat zijn technologie, door de onzekerheid rond de reacties van chatbots te verminderen, de belofte van grote taalmodellen voor een breder scala aan gebruikers zal ontsluiten. “Het hallucinatie-gedoe is geen groot probleem met het taalmodel”, zegt hij. “Het is een probleem van onzekerheid.”