Gemini Live eerste blik: beter dan praten met Siri, maar erger dan ik zou willen

Google lanceerde Gemini Live dinsdag tijdens zijn Made By Google-evenement in Mountain View, Californië. Met deze functie kunt u een semi-natuurlijk stemgesprek voeren in plaats van een getypt gesprek met een AI-chatbot die wordt aangedreven door het nieuwste grote taalmodel van Google. TechCrunch was er om het uit de eerste hand te testen.

Gemini Live is het antwoord van Google op OpenAI’s Advanced Voice Mode, de vrijwel identieke functie van ChatGPT die momenteel in beperkte alfatests wordt getest. Terwijl OpenAI Google versloeg door de eerste te zijn die deze functie demonstreerde, is Google de eerste die de definitieve functie uitrolt.

In mijn ervaring voelen deze verbale functies met lage latentie veel natuurlijker aan dan berichten sturen via ChatGPT, of zelfs praten met Siri of Alexa. Ik merkte dat Gemini Live vragen in minder dan twee seconden beantwoordde en zich vrij snel kon omdraaien als hij werd onderbroken. Gemini Live is niet perfect, maar het is de beste manier om je telefoon handsfree te gebruiken die ik tot nu toe heb gezien.

Hoe het werkt

Voordat je met Gemini Live praat, kun je met deze functie kiezen uit 10 stemmen, vergeleken met slechts drie van OpenAI. Google werkte samen met stemacteurs om ze allemaal te maken. Ik waardeerde de verscheidenheid en vond dat ze allemaal heel menselijk klonken.

In één voorbeeld vroeg een productmanager van Google Gemini Live mondeling om gezinsvriendelijke wijnhuizen in de buurt van Mountain View te vinden met open ruimtes en speeltuinen in de buurt, zodat kinderen mogelijk konden komen. Het is een veel complexere taak dan het vragen aan Siri (of Google Search, eerlijk gezegd) maar Gemini heeft met succes een plek aanbevolen die aan de criteria voldeed: Cooper-Garrod Vineyards in Saratoga.

Gemini Live laat echter te wensen over. Hij leek een nabijgelegen speeltuin te hallucineren genaamd Henry Elementary School Playground, die zogenaamd “10 minuten verwijderd” is van die wijngaard. Er zijn andere speeltuinen in de buurt van Saratoga, maar de dichtstbijzijnde Henry Elementary School ligt op ruim twee uur rijden. Er is een Henry Ford Elementary School in Redwood City, maar deze ligt op 30 minuten afstand.

Google liet graag zien hoe gebruikers Gemini Live midden in een zin kunnen onderbreken en de AI snel omdraait. Het bedrijf zegt dat gebruikers hiermee het gesprek kunnen controleren. In de praktijk werkt deze functie niet perfect. Soms praatten de projectmanagers van Google en Gemini Live door elkaar heen, en leek de AI niet te begrijpen wat er werd gezegd.

Google staat met name niet toe dat Gemini Live andere stemmen zingt of nabootst dan de tien die het biedt, zegt productmanager Leland Rechis. Het bedrijf doet dit waarschijnlijk om te voorkomen dat het in strijd komt met de auteursrechtwetgeving. Bovendien zei Rechis dat Google er niet op gericht is dat Gemini Live de emotionele intonatie in de stem van een gebruiker begrijpt – iets wat OpenAI tijdens de demo aanprees.

Over het algemeen lijkt deze functie een geweldige manier om op een natuurlijkere manier dieper in een onderwerp te duiken dan met een eenvoudige Google-zoekopdracht. Google merkt op dat Gemini Live een stap is op weg naar Project Astra, een volledig multimodaal AI-model dat het bedrijf debuteerde tijdens Google I/O. Voorlopig kan Gemini Live alleen spraakgesprekken voeren, maar in de toekomst wil Google realtime video-begrip toevoegen.