Wat je moet weten over dit nieuwe Chinese AI-model voor het converteren van tekst naar video

Het korte videoplatform, dat ruim 600 miljoen actieve gebruikers heeft, kondigde de nieuwe tool op 6 juni aan. Het heet Kling. Net als het Sora-model van OpenAI is Kling in staat video’s te genereren “tot twee minuten lang met een framesnelheid van 30 fps en een videoresolutie tot 1080p”, zegt het bedrijf op zijn website.

Maar in tegenstelling tot Sora, dat vier maanden nadat OpenAI het probeerde nog steeds niet beschikbaar was voor het publiek, begon Kling mensen het model al snel zelf te laten uitproberen.

Ik was een van hen. Ik kreeg toegang nadat ik de videobewerkingstool van Kuaishou had gedownload, me had geregistreerd met een Chinees nummer, op de wachtlijst was gekomen en een aanvullend formulier had ingevuld via de gebruikersfeedbackgroepen van Kuaishou. Het model kan zoekopdrachten die volledig in het Engels zijn geschreven niet verwerken, maar u kunt dit omzeilen door de zin die u wilt gebruiken naar het Chinees te vertalen of door een of twee Chinese woorden op te nemen.

Dus, de eerste dingen eerst. Hier zijn enkele resultaten die ik met Kling heb gemaakt om je te laten zien hoe het eruit ziet. Herinner je Sora’s indrukwekkende demovideo van de straatscènes in Tokio of de kat die door de tuin rent? Hier zijn de fragmenten van Kling:

Herinner je je de foto nog van de astronaut van Dall-E die op een paard rijdt? Ik vroeg Kling om ook een videoversie te maken.

Er zijn een paar dingen die de moeite waard zijn om hier te prijzen. Geen van deze video’s wijkt veel af van hun aanwijzingen, en de fysica voelt goed: de camerabeweging, het golvende gebladerte en de manier waarop het paard en de astronaut draaien en de aarde achter hen laten zien. Het generatieproces duurde voor elk van hen ongeveer drie minuten. Niet de snelste, maar volkomen acceptabel.

Maar er zijn ook duidelijke nadelen. Video’s, hoewel in 720p-formaat, zien er wazig en korrelig uit; soms negeert Kling een groot verzoek in een prompt; en het allerbelangrijkste: alle video’s die nu worden gegenereerd, zijn beperkt tot vijf seconden, waardoor ze veel minder dynamisch of complex zijn.

Het is echter niet echt eerlijk om deze resultaten te vergelijken met zaken als Sora’s demo’s, die zorgvuldig door OpenAI zijn uitgekozen voor publieke publicatie en waarschijnlijk beter dan gemiddelde resultaten opleveren. Deze Kling-video’s zijn van de eerste pogingen die ik bij elke prompt deed, en ik heb zelden snelle technische trefwoorden als “8k, fotorealisme” toegevoegd om de resultaten te verfijnen.