De nieuwste bug van OpenAI laat de uitdagingen zien waarmee de Chinese AI-modellen worden geconfronteerd

De nieuwste bug van OpenAI laat de uitdagingen zien waarmee de Chinese AI-modellen worden geconfronteerd

Onder de weinige lange Chinese tokens in GPT-4o die noch pornografie noch gokonzin zijn, zijn er twee “Socialisme met Chinese kenmerken” en “Volksrepubliek China”. De aanwezigheid van deze zinnen suggereert dat een aanzienlijk deel van de trainingsgegevens feitelijk afkomstig is uit schrijven in de Chinese staatsmedia, waar formele, lange uitdrukkingen uiterst gebruikelijk zijn. OpenAI is … Read more

GPT-4o Chinese token-trainingsgegevens worden vervuild door spam- en pornowebsites

GPT-4o Chinese token-trainingsgegevens worden vervuild door spam- en pornowebsites

De nieuwe tokenizer heeft in totaal 200.000 tokens, en ongeveer 25% is in niet-Engelse talen, volgens Deedy Das, een AI-investeerder bij Menlo Ventures. Het gebruikte taalfilters om het aantal tokens in verschillende talen te tellen, en de belangrijkste talen, naast Engels, zijn Russisch, Arabisch en Vietnamees. “Dus de belangrijkste impact van de tokenizer is naar … Read more