De nieuwste AI-videogenerator van Runway brengt gigantische suikerspinmonsters tot leven

Screenshot van de Runway Gen-3 Alpha-video die met de zoekopdracht is gegenereerd
Toename / Screenshot van Runway Gen-3 Alpha-beelden gegenereerd met de prompt “Een gigantische mensachtige, gemaakt van donzige blauwe suikerspin, stampt op de grond en brult de lucht in, met de helderblauwe lucht achter hen.”

Zondag kondigde Runway een nieuw AI-videosynthesemodel aan, genaamd Gen-3 Alpha, dat nog in ontwikkeling is, maar video lijkt te produceren van een vergelijkbare kwaliteit als OpenAI Sora, dat eerder dit jaar debuteerde (en ook nog niet is uitgebracht). Het kan nieuwe high-definition video’s genereren op basis van tekstquery’s die variëren van realistische mensen tot surrealistische monsters die het platteland vertrappen.

In tegenstelling tot het vorige topmodel Runway uit juni 2023, dat slechts clips van twee seconden kon maken, kan de Gen-3 Alpha naar verluidt videosegmenten van 10 seconden maken van mensen, plaatsen en dingen die een consistentie en samenhang hebben die de Gen-2 gemakkelijk overtreft. . Als 10 seconden kort klinkt vergeleken met Sora’s volledige minuut aan video, bedenk dan dat het bedrijf met een klein computerbudget werkt in vergelijking met het rijkelijker gefinancierde OpenAI – en feitelijk een geschiedenis heeft in het leveren van mogelijkheden voor het genereren van video’s aan commerciële gebruikers.

Gen-3 Alpha genereert geen audio om de videoclips te begeleiden, en het is waarschijnlijk dat tijd-coherente generaties (die een personage consistent houden in de loop van de tijd) afhankelijk zijn van vergelijkbaar trainingsmateriaal van hoge kwaliteit. Maar de verbetering in de visuele betrouwbaarheid van Runway het afgelopen jaar is moeilijk te negeren.

AI-video wordt steeds populairder

Het zijn een paar drukke weken geweest voor AI-videosynthese in de AI-onderzoeksgemeenschap, inclusief de lancering van het Chinese model Kling, gemaakt door het in Beijing gevestigde Kuaishou Technology (ook wel “Kwai” genoemd). Kling kan twee minuten 1080p HD-video genereren met 30 frames per seconde met een niveau van detail en samenhang dat zogenaamd overeenkomt met Sora.

Gen-3 Alpha-waarschuwing: “Subtiele weerspiegelingen van een vrouw in het raam van een hogesnelheidstrein in een Japanse stad.”

Niet lang nadat Kling debuteerde, begonnen mensen op sociale media surrealistische AI-video’s te maken met behulp van Luma AI’s Luma Dream Machine. Deze video’s waren nieuw en vreemd, maar misten over het algemeen samenhang; we hebben de Dream Machine getest en waren niet onder de indruk van alles wat we zagen.

Ondertussen bevond een van de oorspronkelijke tekst-naar-video-pioniers, het in New York gevestigde Runway – opgericht in 2018 – zich onlangs aan de ontvangende kant van memes waaruit bleek dat de Gen-2-technologie uit de gratie raakte bij nieuwere videosynthesemodellen. Dat kan de aanleiding zijn geweest voor de aankondiging van de Gen-3 Alpha.

Gen-3 Alpha-waarschuwing: “Een astronaut rent door een steegje in Rio de Janeiro.”

Het genereren van realistische mensen is altijd lastig geweest voor videosynthesemodellen, dus Runway toont vooral het vermogen van Gen-3 Alpha om wat de ontwikkelaars ‘expressieve’ menselijke gezichten noemen te creëren met een reeks acties, gebaren en emoties. De door het bedrijf verstrekte voorbeelden waren echter niet bijzonder expressief – meestal staren en knipperen mensen alleen maar langzaam – maar ze zien er realistisch uit.

Menselijke voorbeelden die worden aangehaald zijn onder meer gegenereerde video’s van een vrouw in een trein, een astronaut die door de straat rent, een man wiens gezicht wordt verlicht door de gloed van een televisietoestel, een vrouw die een auto bestuurt en een rennende vrouw.

Gen-3 Alpha-waarschuwing: “Close-up shot van een jonge vrouw die in een auto rijdt, peinzend, mistig groen bos zichtbaar door een regenachtig autoraam.”

De gegenereerde demovideo’s bevatten ook meer surrealistische voorbeelden van videosynthese, waaronder een gigantisch wezen dat door een vervallen stad loopt, een man gemaakt van rotsen die door een bos loopt, en het gigantische suikerspinmonster dat hieronder wordt weergegeven, wat waarschijnlijk de beste video op de markt is. gehele site.

Gen-3 Alpha-prompt: “Een gigantische mensachtige, gemaakt van donzige blauwe suikerspin, stampt op de grond en brult de lucht in, met de helderblauwe lucht achter hen.”

Gen-3 zal een verscheidenheid aan Runway AI-bewerkingstools gebruiken (een van de meest prominente claims van het bedrijf), waaronder Multi Motion Brush, geavanceerde camerabediening en Director Mode. Het kan video’s maken van tekst- of afbeeldingsquery’s.

Runway zegt dat de Gen-3 Alpha de eerste is in een reeks modellen die zijn getraind op een nieuwe infrastructuur die is ontworpen voor grootschalige multimodale training, waarmee een stap wordt gezet in de richting van de ontwikkeling van wat zij ‘General World Models’ noemt, dit zijn hypothetische AI-systemen die interne systemen bouwen representaties van de omgeving te maken en deze te gebruiken om toekomstige gebeurtenissen binnen die omgevingen te simuleren.