We lieten een kat bier drinken met de AI-videogenerator van Runway, en er kwamen handen tevoorschijn

Een screenshot van een door AI gegenereerde video van een kat die een blikje bier drinkt, gemaakt door Runway Gen-3 Alpha.

In juni debuteerde Runway met een nieuw tekst-naar-video-synthesemodel genaamd Gen-3 Alpha. Converteert geschreven beschrijvingen, “instructies” genoemd, naar HD-videoclips zonder geluid. Sindsdien hebben we de kans gehad om het te gebruiken en wilden we onze resultaten delen. Uit onze tests blijkt dat zorgvuldig stimuleren niet zo belangrijk is als het matchen van de concepten die waarschijnlijk in de trainingsgegevens voorkomen, en dat er waarschijnlijk vele generaties en selectief kersenplukken nodig zijn om leuke resultaten te bereiken.

Een hardnekkig thema van alle generatieve AI-modellen die we sinds 2022 hebben gezien, is dat ze uitstekend kunnen zijn in het mixen van concepten uit trainingsgegevens, maar meestal erg slecht zijn in generaliseren (het toepassen van geleerde ‘kennis’ op nieuwe situaties wanneer het model dat niet is). expliciet getraind op ). Dit betekent dat ze misschien uitblinken in stilistische en thematische nieuwigheid, maar strijden voor fundamentele structurele nieuwigheid die verder gaat dan trainingsgegevens.

Wat betekent het allemaal? In het geval van Runway Gen-3 betekent het gebrek aan generalisatie dat je naar een zweefvliegtuig kunt zoeken in een wervelende kop koffie, en op voorwaarde dat de Gen-3-trainingsgegevens videovoorbeelden bevatten van een zweefvliegtuig en wervelende koffie, is dat een “gemakkelijke” nieuwe combinatie die het model behoorlijk overtuigend kan maken. Maar als je op zoek bent naar een kat die een blikje bier drinkt (in een bierreclame), zal dat doorgaans mislukken, omdat er waarschijnlijk niet veel video’s in de trainingsgegevens voorkomen van fotorealistische katten die menselijke dranken drinken. In plaats daarvan combineert het model wat het heeft geleerd over kattenvideo’s en biervideoadvertenties. Het resultaat is een kat met mensenhanden die tegen een brouwsel schopt.

Een paar basisopmerkingen

Tijdens de Gen-3 Alpha-testfase hebben we ons aangemeld voor het Runway Standard-abonnement, dat 625 credits biedt voor $ 15 per maand, plus enkele gratis bonusproefcredits. Elke generatie kost 10 credits per seconde video, en we hebben video’s van 10 seconden gemaakt voor 100 credits per stuk. Het aantal generaties dat we konden maken was dus beperkt.

Eerst hebben we een paar standaarden uit onze eerdere beeldsynthesetests geprobeerd, zoals bierdrinkende katten, barbaren met CRT-tv’s en ruimtekoninginnen. We hebben ons ook verdiept in de kennis van Ars Technica met de ‘moonshark’, onze mascotte. Hieronder ziet u al deze resultaten en meer.

We hadden zo weinig credits dat we het ons niet konden veroorloven om ze te herhalen en te selecteren, dus wat je bij elke zoekopdracht ziet, is precies één generatie die we van Runway hebben gekregen.

“Een zeer intelligent persoon leest Ars Technica op zijn computer wanneer het scherm explodeert”

“een commercial voor McDonald’s nieuwe vlammende cheeseburger”

‘Een maanhaai springt uit een computerscherm en valt een persoon aan’

“Kat in de auto drinkt blikje bier, bierreclame”

“Will Smith eet spaghetti” activeerde het filter, dus we probeerden het “een zwarte man die spaghetti eet.” (Kijk tot het einde.)

“Robotachtige mensachtige dieren in vaudeville-kostuums zwerven door de straten en verzamelen beschermingsgeld in tokens”

“Basketballer in een spookrijtuig van een passagierstrein met een basketbalveld, spelend tegen een team van geesten”

“Credo van een miljoen katten die op de helling rennen, luchtfoto”

“videogamebeelden van een dynamische 3D third-person platformgame uit de jaren negentig met in de hoofdrol een antropomorfe haaienjongen”