GPT-4o Chinese token-trainingsgegevens worden vervuild door spam- en pornowebsites
De nieuwe tokenizer heeft in totaal 200.000 tokens, en ongeveer 25% is in niet-Engelse talen, volgens Deedy Das, een AI-investeerder bij Menlo Ventures. Het gebruikte taalfilters om het aantal tokens in verschillende talen te tellen, en de belangrijkste talen, naast Engels, zijn Russisch, Arabisch en Vietnamees. “Dus de belangrijkste impact van de tokenizer is naar … Read more