De ingenieur achter de spraakherkenningssoftware van Samsung

Elke keer dat je je stem gebruikt om een bericht te genereren op een mobiele telefoon van Samsung Galaxy of een Google Home-apparaat activeert, gebruik je tools die Chanwoo Kim heeft helpen ontwikkelen. De voormalige executive vice-president van de Global AI Centers van Samsung Research is gespecialiseerd in end-to-end spraakherkenning, end-to-end tekst-naar-spraaktools en taalmodellering.

“Het beste deel van mijn carrière is het helpen ontwikkelen van technologieën die mijn vrienden en familieleden gebruiken en waarvan ze genieten”, zegt Kim.

Hij verliet onlangs Samsung om zijn veldwerk voort te zetten aan de Korea University in Seoul, waar hij leiding gaf aan het spraak- en taalverwerkingslaboratorium van de school. Als hoogleraar kunstmatige intelligentie zegt hij dat hij gepassioneerd is in het lesgeven aan de volgende generatie technologieleiders.

“Ik ben blij dat ik mijn eigen laboratorium op school heb en dat ik leerlingen in onderzoek kan leiden”, zegt hij.

Google Home op de markt brengen

Toen Amazon in 2014 aankondigde een slimme luidspreker met AI-assistentietechnologie te ontwikkelen, een gadget dat nu bekend staat als de Echo, besloot Google een eigen versie te ontwikkelen. Kim zag een rol in zijn expertise bij dit streven: hij heeft een Ph.D. in Taal- en Informatietechnologie van Carnegie Mellon, gespecialiseerd in robuuste spraakherkenning. Zijn vrienden die bij Google in Mountain View, Californië aan dergelijke projecten werkten, moedigden hem aan om daar te solliciteren naar een baan als software-ingenieur. Hij verliet Microsoft in Seattle, waar hij drie jaar werkte als softwareontwikkelaar en spraakwetenschapper.

Nadat hij in 2013 bij het akoestische modelleringsteam van Google kwam werken, zorgde hij ervoor dat de AI-hulptechnologie van het bedrijf, die wordt gebruikt in Google Home-producten, zou kunnen werken in de aanwezigheid van achtergrondgeluid.

Chanwoo Kim

De werkgever

Korea Universiteit in Seoel

Titel

Directeur van het spraak- en taalverwerkingslaboratorium en hoogleraar kunstmatige intelligentie

Beoordeling van leden

Lid

Alma maters

Nationale Universiteit van Seoul; Carnegie Mellon

Hij leidde de inspanningen om de spraakherkenningsalgoritmen van Google Home te verbeteren, waaronder het gebruik van akoestische modellering, waardoor het apparaat de relatie tussen spraak en fonemen (fonetische eenheden in talen) kan interpreteren.

“Toen mensen de spraakherkenningsfunctie op hun mobiele telefoon gebruikten, stonden ze slechts ongeveer 1 meter van het apparaat verwijderd”, zegt hij. “Voor de spreker moesten mijn team en ik ervoor zorgen dat hij de gebruiker verstond als hij verder sprak.”

Kim stelde voor om grootschalige data-augmentatie te gebruiken die spraakgegevens op afstand simuleert om de spraakherkenningsmogelijkheden van het apparaat te verbeteren. Data-augmentatie analyseert de ontvangen trainingsgegevens en genereert kunstmatig aanvullende trainingsgegevens om de herkenningsnauwkeurigheid te verbeteren.

Dankzij zijn inbreng kon het bedrijf in 2016 zijn eerste Google Home-product, een slimme luidspreker, uitbrengen.

“Het was echt een verrijkende ervaring”, zegt hij.

Datzelfde jaar klom Kim op tot senior software-ingenieur en bleef ze de algoritmen verbeteren die door Google Home worden gebruikt om grootschalige gegevens te schalen. Hij ontwikkelde ook verder technologieën om de tijd en rekenkracht die door neurale netwerken worden gebruikt te verminderen en om multi-microfoonarrays voor spraakherkenning op afstand te verbeteren.

Kim, die opgroeide in Zuid-Korea, miste zijn familie en keerde in 2018 terug om bij Samsung te gaan werken als vice-president van het AI Center in Seoul.

Toen hij bij Samsung kwam, wilde hij end-to-end spraakherkenning en tekst-naar-spraak-engines ontwikkelen voor de producten van het bedrijf, waarbij de nadruk lag op verwerking op het apparaat. Om hem te helpen zijn doelen te bereiken, richtte hij een spraakverwerkingslaboratorium op en leidde hij een team van onderzoekers die neurale netwerken ontwikkelden ter vervanging van de conventionele spraakherkenningssystemen die toen door de AI-apparaten van Samsung werden gebruikt.

“Het beste deel van mijn werk is het helpen ontwikkelen van technologieën die mijn vrienden en familie gebruiken en waarvan ze genieten.”

Deze systemen omvatten een akoestisch model, een taalmodel, een uitspraakmodel, een gewogen eindige-toestandsomzetter en een inverse tekstnormalisator. Het taalmodel kijkt naar de relatie tussen de woorden die de gebruiker spreekt, terwijl het uitspraakmodel als woordenboek fungeert. Inverse Text Normalizer, het meest gebruikt door tekst-naar-spraak-tools op telefoons, zet spraak om in geschreven uitdrukkingen.

Omdat de componenten omvangrijk waren, was het niet mogelijk om met conventionele technologie een nauwkeurig spraakherkenningssysteem op het apparaat te ontwikkelen, zegt Kim. Een end-to-end neuraal netwerk zou alle taken voltooien en “spraakherkenningssystemen aanzienlijk vereenvoudigen”, zegt hij.

een grote groep mannen en vrouwen die samen poseren voor een groepsportret Chanwoo Kim [top row, seventh from the right] met enkele leden van zijn spraakverwerkingslaboratorium bij Samsung Research.Chanwoo Kim

Hij en zijn team gebruikten een aandachtsstromende aanpak om hun model te ontwikkelen. Een invoerreeks (gesproken woorden) wordt gecodeerd en vervolgens gedecodeerd tot een doelreeks met behulp van een contextvector, een numerieke representatie van woorden die wordt gegenereerd door een vooraf getraind deep learning-model voor automatische vertaling.

Het model werd in 2019 op de markt gebracht en maakt nu deel uit van de Galaxy-telefoonreeks van Samsung. In hetzelfde jaar werd een cloudversie van het systeem op de markt gebracht en gebruikt door de virtuele assistent van de telefoon, Bixby.

Kims team ging door met het verbeteren van spraakherkenning en tekst-naar-spraaksystemen in andere producten, en elk jaar brachten ze een nieuwe engine op de markt.

Ze omvatten voor vermogen genormaliseerde cepstrale coëfficiënten, die de nauwkeurigheid van de spraakherkenning verbeteren in luidruchtige omgevingen zoals additieve ruis, signaalveranderingen, meerdere luidsprekers en nagalm. Het onderdrukt de effecten van achtergrondgeluid door statistieken te gebruiken om kenmerken te schatten. Het wordt nu gebruikt in een verscheidenheid aan Samsung-producten, waaronder airconditioners, mobiele telefoons en robotstofzuigers.

In 2021 promoveerde Samsung Kim tot executive vice-president van de zes Global AI Centers in Cambridge, Engeland; Montréal; Seoel; Siliconen vallei; New York; en Toronto.

In die rol hield hij toezicht op onderzoek naar de integratie van kunstmatige intelligentie en machine learning in Samsung-producten. Hij is de jongste persoon die executive vice-president van het bedrijf is.

Hij leidde ook de ontwikkeling van Samsung’s generatieve modellen van grote talen, die uitgroeiden tot Samsung Gauss. Een reeks generatieve AI-modellen kan code, afbeeldingen en tekst genereren.

In maart verliet hij het bedrijf om aan de Korea University te gaan werken als hoogleraar kunstmatige intelligentie – een droom die werkelijkheid werd, zegt hij.

“Toen ik voor het eerst aan mijn PhD begon, was het mijn droom om een carrière in de academische wereld na te streven”, zegt Kim. “Maar nadat ik promoveerde, merkte ik dat ik aangetrokken werd door de impact van mijn onderzoek op echte producten, dus besloot ik de industrie in te gaan.”

Hij zegt dat hij enthousiast was om zich bij de Korea University aan te sluiten omdat deze “een sterke aanwezigheid heeft op het gebied van kunstmatige intelligentie” en een van de topuniversiteiten van het land is.

Kim zegt dat zijn onderzoek zich zal richten op generatieve spraakmodellen, multimodale verwerking en de integratie van generatieve spraak met taalmodellen.

Mijn droom nastreven bij Carnegie Mellon

Kim’s vader was elektrotechnisch ingenieur en vanaf jonge leeftijd, zegt Kim, wilde ze in zijn voetsporen treden. Hij ging naar een wetenschappelijk georiënteerde middelbare school in Seoul om technische onderwerpen en programmeren te studeren. Hij behaalde zijn bachelor- en masterdiploma in elektrotechniek aan de Seoul National University in respectievelijk 1998 en 2001.

Kim had lang gehoopt een doctoraat te behalen aan een Amerikaanse universiteit, omdat hij dacht dat dit hem meer kansen zou bieden.

En dat is precies wat hij deed. Hij ging in 2005 naar Pittsburgh om zijn Ph.D. in Talen en Informatietechnologie aan Carnegie Mellon.

“Ik besloot aan spraakherkenning te doen omdat ik geïnteresseerd was in het verhogen van de kwaliteitsnormen”, zegt hij. “Ik vond het ook leuk dat het vakgebied veelzijdig was en dat ik aan hardware of software kon werken en gemakkelijk de focus kon verleggen van realtime signaalverwerking naar beeldsignaalverwerking of een andere sector van het veld.”

Kim deed zijn doctoraatswerk onder leiding van IEEE Life Fellow Richard Stern, die waarschijnlijk het meest bekend is vanwege zijn theoretische werk over hoe het menselijk brein geluid uit elk oor vergelijkt om te beoordelen waar het geluid vandaan komt.

“Destijds wilde ik de nauwkeurigheid van automatische spraakherkenningssystemen verbeteren in rumoerige omgevingen of als er meerdere sprekers waren”, zegt hij. Hij ontwikkelde verschillende signaalverwerkingsalgoritmen die gebruik maakten van wiskundige representaties die waren gemaakt op basis van informatie over hoe mensen auditieve informatie verwerken.

Kim behaalde zijn Ph.D. in 2010 en trad in dienst bij Microsoft in Seattle als softwareontwikkelingsingenieur en spraakwetenschapper. Hij werkte drie jaar bij Microsoft voordat hij bij Google kwam.

Toegang tot betrouwbare informatie

Kim kwam bij IEEE toen hij promovendus was, zodat hij zijn onderzoekspapers kon presenteren op IEEE-conferenties. In 2016 verscheen een artikel dat hij samen met Stern schreef IEEE/ACM-transacties voor audio-, spraak- en taalverwerking. Ze wonnen er de Best Paper Award van 2019 mee van de IEEE Signal Processing Society. Kim voelde zich vereerd, zegt hij, met deze ‘prestigieuze onderscheiding’.

Kim behoudt zijn IEEE-lidmaatschap deels omdat, zegt hij, de IEEE een betrouwbare informatiebron is en hij toegang heeft tot de nieuwste technische informatie.

Een ander voordeel van het lidmaatschap is het wereldwijde netwerk van IEEE, zegt Kim.

“Als lid krijg ik de kans om andere ingenieurs in mijn vakgebied te ontmoeten”, zegt hij.

Hij neemt regelmatig deel aan de jaarlijkse IEEE-conferentie over akoestiek, spraak en signaalverwerking. Dit jaar is hij vice-voorzitter van de technische programmacommissie voor de bijeenkomst van volgende maand in Seoul.