Google onthult Veo, een high-definition AI-videogenerator die kan wedijveren met Sora

Foto's afkomstig uit video's gegenereerd door Google Veo. — Toename / Foto’s afkomstig uit video’s gegenereerd door Google Veo.

Google / Benj Edwards

Dinsdag heeft Google tijdens Google I/O 2024 Veo aangekondigd, een nieuw AI-videosynthesemodel dat HD-video kan maken van tekst-, afbeelding- of videoquery’s, vergelijkbaar met OpenAI’s Sora. Het kan 1080p-video’s genereren die langer dan een minuut duren en video’s bewerken volgens schriftelijke instructies, maar het is nog niet vrijgegeven voor wijdverbreid gebruik.

Veo biedt naar verluidt de mogelijkheid om bestaande video’s te bewerken met behulp van tekstopdrachten, de visuele consistentie tussen frames te behouden en videosequenties van maximaal 60 seconden te genereren op basis van een enkele prompt of een reeks prompts die een verhaal vormen. Het bedrijf zegt dat het gedetailleerde scènes kan genereren en filmische effecten kan toepassen, zoals time-lapses, luchtfoto’s en verschillende visuele stijlen

Sinds de lancering van DALL-E 2 in april 2022 hebben we een reeks nieuwe beeld- en videosynthesemodellen gezien die bedoeld zijn om iedereen die een geschreven beschrijving kan typen in staat te stellen een gedetailleerde afbeelding of video te maken. Hoewel geen enkele technologie volledig is geperfectioneerd, worden zowel AI-beeld- als videogeneratoren voortdurend beter in staat.

In februari hebben we een recensie besproken van de Sora-videogenerator van OpenAI, waarvan velen destijds geloofden dat dit de beste AI-videosynthese was die de industrie te bieden had. Het maakte genoeg indruk op Tyler Perry om een uitbreiding van zijn filmstudio stop te zetten. Tot nu toe heeft OpenAI de tool echter niet universeel toegankelijk gemaakt; in plaats daarvan hebben ze het gebruik ervan beperkt tot een selecte groep testers.

Nu lijkt het er op het eerste gezicht op dat Google’s Veo in staat is om Sora-achtige video’s te genereren. We hebben het zelf niet geprobeerd, dus we kunnen alleen de demonstratievideo’s bekijken die het bedrijf op zijn website heeft geplaatst. Dit betekent dat iedereen die ernaar kijkt de beweringen van Google met een korreltje zout moet nemen, aangezien de resultaten van de generatie misschien niet typisch zijn.

Ve’s videovoorbeelden zijn onder meer een cowboy die op een paard rijdt, een snelle opname door een straat in een buitenwijk, kebabs die worden gegrild, een time-lapse van de opening van een zonnebloem en meer. Opvallend afwezig zijn gedetailleerde afbeeldingen van mensen, wat het historisch gezien moeilijk heeft gemaakt om AI-beeld- en videomodellen te genereren zonder duidelijke vervorming.

Google zegt dat Veo voortbouwt op de eerdere videogeneratiemodellen van het bedrijf, waaronder Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet en Lumiere. Om de kwaliteit en efficiëntie te verbeteren, bevatten Veo-trainingsgegevens meer gedetailleerde video-ondertitels en worden gecomprimeerde “latente” videorepresentaties gebruikt. Om de kwaliteit van Veo’s videogeneratie te verbeteren, heeft Google gedetailleerdere ondertitels toegevoegd aan de video’s die worden gebruikt om Veo te trainen, waardoor de AI instructies nauwkeuriger kan interpreteren.

Veo lijkt ook opmerkelijk vanwege het ondersteunen van opdrachten voor het vastleggen van films: “Als je zowel een video-invoeropdracht als een bewerkingsopdracht hebt, zoals het toevoegen van een kajak aan een luchtfoto van de kust, kan Veo deze opdracht toepassen op de eerste video en een nieuwe maken. , gemonteerde video”, zegt het bedrijf.

Hoewel de demo’s er op het eerste gezicht indrukwekkend uitzien (vooral vergeleken met Will Smith die spaghetti eet), geeft Google toe dat het maken van AI-video’s moeilijk is. “Het behouden van visuele consistentie kan een uitdaging zijn voor modellen voor het genereren van video’s”, schrijft het bedrijf. “Karakters, objecten of zelfs hele scènes kunnen onverwacht flikkeren, springen of tussen frames wisselen, waardoor de kijkervaring wordt verstoord.”

Google heeft geprobeerd deze tekortkomingen te verzachten met ‘state-of-the-art latente diffusietransformatoren’, wat in feite een onzinnig marketingspiel is. Maar het bedrijf heeft zoveel vertrouwen in het model dat het samenwerkt met acteur Donald Glover en zijn Gilgo-studio om een door AI gegenereerde demo te maken die binnenkort zal debuteren.

In eerste instantie zal Veo beschikbaar zijn voor geselecteerde makers via VideoFX, een nieuwe experimentele tool die beschikbaar is op de AI Test Kitchen-website van Google, labs.google. Creators kunnen zich op de VideoFX-wachtlijst plaatsen om de komende weken mogelijk toegang te krijgen tot Veo-functies. Google is van plan om in de toekomst een aantal mogelijkheden van Ve te integreren in YouTube Shorts en andere producten.

Nog geen woord over waar Google de Veo-trainingsgegevens vandaan heeft (als we moesten raden, is YouTube er waarschijnlijk bij betrokken). Maar Google zegt dat het een “verantwoorde” benadering van Veo hanteert. Volgens het bedrijf worden video’s gemaakt door Veo voorzien van een watermerk met behulp van SynthID, onze geavanceerde tool voor watermerken en AI-gegenereerde inhoudidentificatie, en passeren ze beveiligingsfilters en geheugenverificatieprocessen die de privacy-, auteursrecht- en auteursrechtrisico’s helpen verminderen. .”