OpenAI kan menselijke stemmen nabootsen, maar zal de technologie nog niet vrijgeven

Stemsynthese heeft een lange weg afgelegd sinds het Speak & Spell-speelgoed uit 1978, dat ooit mensen verbaasde met zijn superieure vermogen om woorden hardop voor te lezen met behulp van een elektronische stem. Door gebruik te maken van AI-modellen met deep learning kan de software nu niet alleen realistisch klinkende stemmen creëren, maar ook op overtuigende wijze bestaande stemmen imiteren met behulp van kleine geluidsfragmenten.

Daartoe heeft OpenAI deze week Voice Engine aangekondigd, een AI-tekst-naar-spraak-model voor het creëren van synthetische stemmen op basis van een segment van 15 seconden aan opgenomen audio. Hij plaatste audiovoorbeelden van de Voice Engine in actie op zijn website.

Zodra de stem is gekloond, kan de gebruiker tekst in de Voice Engine invoeren en een door AI gegenereerde stemuitvoer krijgen. Maar OpenAI is nog niet klaar om zijn technologie breed publiek te maken. Het bedrijf was oorspronkelijk van plan om eerder deze maand een pilotprogramma te lanceren waarmee ontwikkelaars zich kunnen aanmelden voor de Voice Engine API. Maar na nader onderzoek van de ethische implicaties heeft het bedrijf besloten zijn ambities voorlopig terug te schroeven.

“In overeenstemming met onze benadering van AI-beveiliging en onze vrijwillige toezeggingen, kiezen we ervoor om deze technologie te herzien, maar deze technologie op dit moment niet publiekelijk bekend te maken”, schreef het bedrijf. “We hopen dat deze herziening van de Voice Engine zowel het potentieel ervan benadrukt als de noodzaak motiveert om de maatschappelijke veerkracht te versterken tegen de uitdagingen die worden veroorzaakt door steeds dwingender wordende generatieve modellen.”

De technologie voor het klonen van spraak is over het algemeen niet bijzonder nieuw: er zijn sinds 2022 verschillende modellen van AI-spraaksynthese geweest, en de technologie is actief in de open source-gemeenschap met pakketten als OpenVoice en XTTSv2. Maar het idee dat OpenAI ernaar streeft iedereen zijn specifieke merk spraaktechnologie te laten gebruiken, is veelzeggend. En in sommige opzichten zou de terughoudendheid van het bedrijf om het volledig uit te brengen misschien wel het grotere verhaal zijn.

OpenAI zegt dat de voordelen van zijn stemtechnologie onder meer bestaan uit het bieden van hulp bij het lezen via natuurlijk klinkende stemmen, het mogelijk maken van een mondiaal bereik voor makers door inhoud te vertalen met behoud van inheemse accenten, het ondersteunen van non-verbale individuen met gepersonaliseerde spraakopties en het helpen van patiënten hun eigen stem terug te krijgen onder omstandigheden die de spraak belemmeren.

Maar het betekent ook dat iedereen die vijftien seconden van iemands opgenomen stem heeft, deze effectief kan klonen, en dat heeft duidelijke gevolgen voor mogelijk misbruik. Zelfs als OpenAI zijn Voice Engine nooit uitbrengt, heeft de mogelijkheid om stemmen te klonen al voor problemen in de samenleving gezorgd door middel van telefoonoplichting waarbij iemand de stem van een geliefde nabootst en campagne voert voor robocalls met gekloonde stemmen van politici als Joe Biden.

Ook hebben onderzoekers en journalisten aangetoond dat technologie voor het klonen van stemmen kan worden gebruikt om in te breken op bankrekeningen die stemauthenticatie gebruiken (zoals Chase’s Voice ID). stedelijke zaken, om in mei 2023 een brief te sturen naar de CEO’s van verschillende grote banken om te informeren naar de veiligheidsmaatregelen die banken nemen om door AI aangedreven risico’s tegen te gaan.

OpenAI erkent dat de technologie problemen kan veroorzaken als deze op grote schaal wordt vrijgegeven, en probeert daarom in eerste instantie deze problemen te omzeilen met een reeks regels. Sinds vorig jaar test het de technologie met een aantal geselecteerde partnerbedrijven. Het videosynthesebedrijf HeyGen gebruikte het model bijvoorbeeld om de gesproken stem naar andere talen te vertalen met behoud van hetzelfde stemgeluid.