OpenAI speelt de hyperrealistische stem van ChatGPT voor sommige betalende gebruikers

Dinsdag begon OpenAI met het uitrollen van de geavanceerde spraakmodus van ChatGPT, waardoor gebruikers voor het eerst toegang kregen tot de hyperrealistische audioreacties van GPT-4o. De alfaversie zal vandaag beschikbaar zijn voor een kleine groep ChatGPT Plus-gebruikers, en OpenAI zegt dat de functie in het najaar van 2024 geleidelijk zal worden uitgerold naar alle Plus-gebruikers.

Toen OpenAI in mei voor het eerst de GPT-4o-stem introduceerde, schokte de functie het publiek met zijn snelle reacties en griezelige gelijkenis met een echte menselijke stem – één in het bijzonder. De stem, Sky, leek op die van Scarlett Johansson, de actrice achter de kunstmatige assistent in de film ‘Her’. Kort na de demo van OpenAI zei Johansson dat ze de herhaalde verzoeken van CEO Sam Altman om haar stem te gebruiken weigerde, en na het zien van de GPT-4o-demo een juridisch adviseur inhuurde om haar gelijkenis te verdedigen. OpenAI ontkende het gebruik van de stem van Johansson, maar verwijderde later de stem die in de demo werd getoond. In juni zei OpenAI dat het de release van een geavanceerde spraakmodus zou uitstellen om de beveiligingsmaatregelen te verbeteren.

Een maand later, en het wachten is voorbij (soort van). OpenAI zegt dat de video- en schermdelingsmogelijkheden die tijdens de voorjaarsupdate worden getoond geen deel zullen uitmaken van deze alpha-build, en “op een later tijdstip” zullen verschijnen. Voorlopig is de GPT-4o-demo die iedereen verbaasde nog steeds slechts een demo, maar sommige premiumgebruikers zullen nu toegang hebben tot de ChatGPT-stemfunctie die daar wordt aangeboden.

ChatGPT kan nu praten en luisteren

Mogelijk heb je de stemmodus die momenteel beschikbaar is in ChatGPT al geprobeerd, maar OpenAI zegt dat de geavanceerde stemmodus anders is. De oude audio-oplossing van ChatGPT gebruikte drie afzonderlijke modellen: één om uw stem naar tekst om te zetten, GPT-4 om uw vraag te verwerken en een derde om de tekst van ChatGPT naar stem om te zetten. Maar GPT-4o is multimodaal en kan deze taken uitvoeren zonder de hulp van hulpmodellen, waardoor gesprekken met een aanzienlijk lagere latentie ontstaan. OpenAI beweert ook dat de GPT-4o emotionele intonaties in je stem kan waarnemen, waaronder verdriet, opwinding of zingen.

In dit pilotprogramma zullen ChatGPT Plus-gebruikers uit de eerste hand zien hoe hyperrealistisch de Advanced Voice Mode van OpenAI werkelijk is. TechCrunch kon de functie niet testen voordat dit artikel werd gepubliceerd, maar we zullen het beoordelen zodra we toegang krijgen.

OpenAI zegt dat het geleidelijk de nieuwe ChatGPT-stem vrijgeeft om het gebruik ervan nauwlettend in de gaten te houden. Mensen in de alpha-groep ontvangen een waarschuwing in de ChatGPT-app, gevolgd door een e-mail met instructies over het gebruik ervan.

In de maanden sinds de OpenAI-demo zegt het bedrijf dat het de stemmogelijkheden van GPT-4o heeft getest met meer dan 100 externe rode teams die 45 verschillende talen spraken. OpenAI zegt dat er begin augustus een rapport over deze beveiligingsinspanningen zal verschijnen.

Het bedrijf zegt dat de Advanced Voice Mode beperkt zal zijn tot de vier vooraf ingestelde stemmen van ChatGPT – Juniper, Breeze, Cove en Ember – gemaakt in samenwerking met betaalde stemacteurs. De Sky-stem uit de OpenAI-demo van mei is niet langer beschikbaar in ChatGPT. OpenAI-woordvoerder Lindsay McCallum zegt dat “ChatGPT de stemmen van andere mensen, zowel individuen als publieke figuren, niet kan imiteren en output zal blokkeren die verschilt van een van deze vooraf ingestelde stemmen.”

OpenAI probeert diepgaande nep-controverses te vermijden. In januari werd stemkloneringstechnologie van ElevenLabs gebruikt om zich voor te doen als president Biden, waardoor de primaire kiezers in New Hampshire werden misleid.

OpenAI zegt ook dat het nieuwe filters heeft geïntroduceerd om bepaalde verzoeken voor het genereren van muziek of ander auteursrechtelijk beschermd geluid te blokkeren. Het afgelopen jaar zijn AI-bedrijven in juridische problemen terechtgekomen wegens inbreuk op het auteursrecht, en audiomodellen zoals de GPT-4o openen een geheel nieuwe categorie bedrijven die een klacht kunnen indienen. Met name de platenmaatschappijen, die een geschiedenis van geschillen hebben, en de producenten van AI-nummers Suno en Udio al hebben aangeklaagd.