LLM's worden heimelijker racistisch door menselijk ingrijpen

Zelfs als de twee zinnen dezelfde betekenis hadden, pasten de modellen bijvoeglijke naamwoorden als ‘vies’, ‘lui’ en ‘dom’ eerder toe op AAE-sprekers dan op Standaard Amerikaans-Engels (SAE)-sprekers. De modellen associeerden AAE-sprekers met minder prestigieuze banen (of associeerden ze helemaal niet met banen), en toen hen werd gevraagd een oordeel te vellen over een hypothetische beklaagde, waren ze eerder geneigd de doodstraf aan te bevelen.

Een nog belangrijker bevinding zou de fout kunnen zijn waarop het onderzoek wijst in de manier waarop onderzoekers dergelijke vooroordelen proberen aan te pakken.

Om modellen van haatdragende ogen te ontdoen, gebruiken bedrijven als OpenAI, Meta en Google feedbacktraining, waarbij menselijke werknemers handmatig de manier aanpassen waarop het model op bepaalde vragen reageert. Dit proces, vaak ‘tuning’ genoemd, heeft tot doel de miljoenen verbindingen in het neurale netwerk opnieuw te kalibreren en het model beter in lijn te brengen met de gewenste waarden.

De methode werkt goed in de strijd tegen openlijke stereotypen, en toonaangevende bedrijven gebruiken deze al bijna tien jaar. Als gebruikers GPT-2 bijvoorbeeld zouden vragen stereotypen over zwarte mensen te noemen, zou het waarschijnlijk ‘verdacht’, ‘radicaal’ en ‘agressief’ bevatten, maar GPT-4 kwam niet langer overeen met die associaties, aldus de krant. .

De methode hield echter geen rekening met de impliciete stereotypen die de onderzoekers aantroffen toen ze Afrikaans-Amerikaans Engels gebruikten in hun onderzoek, dat op arXiv werd gepubliceerd en niet door vakgenoten werd beoordeeld. Dat komt deels doordat bedrijven zich minder bewust zijn van dialectvooroordelen als probleem, zeggen ze. Het is ook gemakkelijker om een model te leren niet te reageren op openlijk racistische vragen dan om het te leren niet negatief te reageren op een heel dialect.

“Feedbacktraining leert de modellen rekening te houden met hun racisme”, zegt Valentin Hofmann, onderzoeker bij het Allen Institute for AI en co-auteur van het artikel. “Maar dialectvooroordelen openen een dieper niveau.”

Avijit Ghosh, een ethiekonderzoeker bij Hugging Face die niet bij het onderzoek betrokken was, zegt dat de bevinding twijfels oproept over de aanpak die bedrijven gebruiken om vooroordelen aan te pakken.

“Deze afstemming – waarbij het model weigert racistische resultaten weg te gooien – is niets meer dan een zwak filter dat gemakkelijk kan worden doorbroken”, zegt hij.