Met de nieuwe tool van Google kunnen grote taalmodellen hun antwoorden controleren

Voorlopig is het alleen beschikbaar voor onderzoekers, maar Ramaswami zegt dat de toegang na meer testen verder kan worden uitgebreid. Als het werkt zoals verwacht, zou het een echte zegen kunnen zijn voor het plan van Google om kunstmatige intelligentie dieper in zijn zoekmachine te integreren.

Het gaat echter gepaard met een aantal kanttekeningen. Ten eerste wordt het nut van de methoden beperkt door de vraag of de relevante gegevens zich in de Data Commons bevinden, die meer een gegevensopslagplaats dan een encyclopedie is. Het kan je het bruto binnenlands product van Iran vertellen, maar het kan de datum van de eerste strijd om Fallujah of het moment waarop Taylor Swift haar nieuwste single uitbracht niet bevestigen. Google-onderzoekers ontdekten zelfs dat de RIG-methode bij ongeveer 75% van de testvragen geen bruikbare gegevens uit de Data Commons kon halen. Zelfs als er inderdaad bruikbare data in de Data Commons staan, formuleert het model niet altijd de juiste vragen om deze te vinden.

Ten tweede is er het probleem van de nauwkeurigheid. Bij het testen van de RAG-methode ontdekten de onderzoekers dat het model 6% tot 20% van de tijd onjuiste antwoorden gaf. Ondertussen haalde de RIG-methode slechts ongeveer 58% van de tijd de juiste statistieken uit de Data Commons (hoewel dit een enorme verbetering is ten opzichte van de nauwkeurigheidsgraad van 5% tot 17% van de grote taalmodellen van Google wanneer Nee gegevens pingen Commons).

Ramaswami zegt dat de nauwkeurigheid van DataGemma zal verbeteren naarmate het met meer gegevens wordt getraind. De eerste versie was getraind op slechts ongeveer 700 vragen, en voor het verfijnen van het model moest zijn team elk afzonderlijk feit dat het opleverde handmatig controleren. Om het model verder te verbeteren, is het team van plan de dataset uit te breiden van honderden vragen naar miljoenen.