De nieuwste bug van OpenAI laat de uitdagingen zien waarmee de Chinese AI-modellen worden geconfronteerd

Onder de weinige lange Chinese tokens in GPT-4o die noch pornografie noch gokonzin zijn, zijn er twee “Socialisme met Chinese kenmerken” en “Volksrepubliek China”. De aanwezigheid van deze zinnen suggereert dat een aanzienlijk deel van de trainingsgegevens feitelijk afkomstig is uit schrijven in de Chinese staatsmedia, waar formele, lange uitdrukkingen uiterst gebruikelijk zijn.

OpenAI is van oudsher erg spaarzaam geweest met de gegevens die het gebruikt om zijn modellen te trainen, en zal ons waarschijnlijk nooit vertellen hoeveel van zijn Chinese trainingsdatabase staatsmedia is en hoeveel spam. (OpenAI reageerde niet op MIT-technologierecensieGedetailleerde vragen verzonden op vrijdag.)

Maar het is niet het enige bedrijf dat met dit probleem kampt. Mensen in China die in de AI-industrie werken zijn het erover eens dat er een gebrek is aan hoogwaardige Chinese tekstdatasets voor LLM-training. Eén reden is dat het Chinese internet vroeger gefragmenteerd was en grotendeels nog steeds is door grote bedrijven als Tencent en ByteDance.. Zij zijn eigenaar van de meeste sociale platforms en zullen uw gegevens niet delen met concurrenten of derde partijen voor LLM-training.

Dit is in feite ook de reden waarom zoekmachines, waaronder Google, een beetje slecht zijn als het gaat om zoeken in het Chinees. Omdat WeChat-content alleen op WeChat kan worden doorzocht, en Douyin (Chinese TikTok)-content alleen op Douyin kan worden doorzocht, zijn deze gegevens niet beschikbaar voor een zoekmachine van derden, laat staan voor LLM. Maar dit zijn platforms waar echte menselijke gesprekken plaatsvinden, in plaats van een website met spam die u probeert te verleiden tot online gokken.

Het gebrek aan kwaliteitsvolle trainingsgegevens is een veel groter probleem dan het onvermogen om pornografie en algemene onzin uit de GPT-4o-tokentrainingsgegevens te filteren. Als er geen bestaande dataset bestaat, moeten AI-bedrijven veel werk verzetten om hun eigen datasets te identificeren, te verkrijgen en te beheren en ongepaste of bevooroordeelde inhoud eruit te filteren.

OpenAI lijkt dit niet te hebben gedaan, wat eerlijk gezegd logisch is, aangezien mensen in China de AI-modellen sowieso niet kunnen gebruiken.

Er zijn echter veel mensen buiten China die AI-diensten in het Chinees willen gebruiken. En ze verdienen een product dat net zo goed werkt als sprekers van welke andere taal dan ook.

Hoe kunnen we het probleem van het gebrek aan goede Chinese LLM-trainingsgegevens oplossen? Vertel mij uw idee op zeyi@technologyreview.com.