Waarom zijn de resultaten van Google AI Preview zo slecht?

In het geval dat AI Previews een pizzarecept aanbeveelt dat lijm bevat – een tekening uit een grappost van Reddit – is het waarschijnlijk dat de post relevant was voor de oorspronkelijke vraag van de gebruiker over kaas die niet aan pizza plakt, maar er is iets misgegaan in de procesbevindingen. zegt Sjah. “Het feit dat het relevant is, betekent nog niet dat het juist is, en het generatiedeel van het proces trekt dat niet in twijfel”, zegt hij.

Op dezelfde manier kan het RAG-systeem, als het conflicterende informatie tegenkomt, zoals een beleidshandleiding en een bijgewerkte versie van dezelfde handleiding, niet bepalen uit welke versie het zijn reactie moet putten. In plaats daarvan kan het informatie van beide combineren om een mogelijk verkeerd antwoord te creëren.

“Een groot taalmodel genereert vloeiende taal op basis van de aangeleverde bronnen, maar vloeiende taal is niet hetzelfde als correcte informatie”, zegt Suzanne Verberne, hoogleraar aan de Universiteit Leiden en gespecialiseerd in natuurlijke taalverwerking.

Hoe specifieker het onderwerp, hoe groter de kans op verkeerde informatie in de resultaten van een groot taalmodel, zegt ze, en voegt eraan toe: “Dit is een probleem op het gebied van de geneeskunde, maar ook op het gebied van onderwijs en wetenschap.”

Volgens een woordvoerder van Google komt dit in veel gevallen waarin AI-overzichten onjuiste antwoorden retourneert, doordat er niet veel informatie van hoge kwaliteit op internet is om weer te geven voor een zoekopdracht – of omdat de zoekopdracht het meest overeenkomt met satirische sites of grappenposts. .

De overgrote meerderheid van de AI Reviews biedt informatie van hoge kwaliteit, en veel voorbeelden van slechte AI Reviews waren een reactie op ongebruikelijke vragen, zeiden ze, en voegden eraan toe dat het aantal AI Reviews met potentieel schadelijke, obscene of anderszins ontwrichtende inhoud minder dan één op de tien was. elke 7 miljoen unieke zoekopdrachten. Google blijft AI-reviews voor bepaalde zoekopdrachten verwijderen in overeenstemming met zijn inhoudsbeleid.

Het zijn niet alleen slechte trainingsgegevens

Hoewel de pizzalijmbug een goed voorbeeld is van een AI-recensie die naar een onbetrouwbare bron verwijst, kunnen AI-recensies nog steeds verkeerde informatie genereren uit feitelijk nauwkeurige bronnen. Melanie Mitchell, onderzoeker op het gebied van kunstmatige intelligentie aan het Santa Fe Instituut in New Mexico, googlede ‘Hoeveel moslimpresidenten heeft de VS gehad?’, waarop AI Overviews antwoordde: ‘De Verenigde Staten hebben één moslimpresident gehad, Barack Hussein Obama.’

Hoewel Barack Obama zelf geen moslim is, waardoor het antwoord van AI Overviews verkeerd was, haalde hij zijn informatie uit een hoofdstuk in een academisch boek met de titel Barack Hussein Obama: Amerika’s eerste moslimpresident? Het AI-systeem miste dus niet alleen het hele punt van het essay, het interpreteerde het ook precies andersom, zegt Mitchell. “Er zijn hier verschillende problemen voor AI; de ene is het vinden van een goede bron die geen grap is, maar de andere interpreteert correct wat de bron zegt”, voegt ze eraan toe. “Dit is iets waar AI-systemen moeite mee hebben, en het is belangrijk op te merken dat zelfs als het een goede bron krijgt, het nog steeds fouten kan maken.”