Stable Diffusion 3 arriveert om een vroege AI-imago voorsprong tegen Sora en Gemini te verstevigen

Stability heeft Stable Diffusion 3 aangekondigd, de nieuwste en krachtigste versie van het beeldgenererende AI-model van het bedrijf. Hoewel details schaars zijn, is dit blijkbaar een poging om de hype rond onlangs aangekondigde concurrenten van OpenAI en Google af te weren.

We zullen binnenkort een meer technische analyse van dit alles hebben, maar voor nu moet je weten dat Stable Diffusion 3 gebaseerd is op een nieuwe architectuur en op een verscheidenheid aan hardware zal draaien (hoewel je nog steeds iets goeds nodig hebt). Het is nog niet bekend, maar u kunt zich hier aanmelden voor de wachtlijst.

De SD3 maakt gebruik van een bijgewerkte “diffusietransformator”, een techniek die in 2022 werd ontwikkeld, maar in 2023 werd herzien en nu schaalbaar is. Sora, de indrukwekkende videogenerator van OpenAI, werkt blijkbaar op vergelijkbare principes (Will Peebles, co-auteur van het artikel, bleef het Sora-project leiden). Het maakt ook gebruik van ‘flow matching’, een andere nieuwe techniek die de kwaliteit op vergelijkbare wijze verbetert zonder al te veel overhead toe te voegen.

De modelsuite varieert van 800 miljoen parameters (minder dan de veelgebruikte SD 1.5) tot 8 miljard parameters (meer dan SD XL), met de bedoeling om op verschillende hardware te draaien. Je zult waarschijnlijk nog steeds een serieuze GPU en een machine learning-opstelling willen, maar je bent niet zo beperkt tot de API als gewoonlijk met OpenAI en Google Models. (Anthropic heeft zich op zijn beurt niet publiekelijk gericht op het genereren van afbeeldingen of video’s, dus dat maakt niet echt deel uit van dit gesprek.)

Op Twitter merkt Stable Diffusion-chef Emad Mostaque op dat het nieuwe model in staat is tot multimodaal begrip en video-invoer en -generatie, allemaal dingen die zijn rivalen hebben benadrukt bij hun API-gestuurde concurrenten. Deze mogelijkheden zijn nog steeds theoretisch, maar het lijkt erop dat er geen technische barrière is om ze in toekomstige releases op te nemen.

Het is natuurlijk onmogelijk om deze modellen met elkaar te vergelijken, omdat er geen enkele daadwerkelijk is gepubliceerd en we ons alleen maar moeten baseren op concurrerende claims en de voorbeelden die we hebben gekozen. Maar Stable Diffusion heeft één duidelijk voordeel: het is aanwezig in de tijdsgeest als basismodel voor elke vorm van beeldgeneratie waar dan ook, met weinig intrinsieke beperkingen in methode of inhoud. (SD3 zal vrijwel zeker een nieuw tijdperk van door AI gegenereerde pornografie inluiden, zodra het de beveiligingsmechanismen doorstaat.)

Stabiele diffusie lijkt de generatieve AI met een white label te willen zijn waar je niet zonder kunt, in plaats van de generatieve AI in boetiekstijl waarvan je niet zeker weet of je deze nodig hebt. Daartoe verbetert het bedrijf ook zijn tools om de lat voor bruikbaarheid te verlagen, hoewel deze verbeteringen, net als de rest van de aankondiging, aan de verbeelding worden overgelaten.

Interessant is dat het bedrijf veiligheid op de eerste plaats zette in zijn aankondiging en verklaarde:

We hebben redelijke stappen ondernomen en blijven dit doen om misbruik van Stable Diffusion 3 door slechte actoren te voorkomen. Beveiliging begint wanneer we ons model gaan trainen en gaat door tijdens het testen, evalueren en implementeren. Ter voorbereiding op deze vroege evaluatie hebben we een aantal veiligheidsmaatregelen geïmplementeerd. Door voortdurende samenwerking met onderzoekers, experts en onze gemeenschap verwachten we integer te kunnen blijven innoveren nu we de publieke release van het model naderen.

Wat zijn deze waarborgen precies? Ongetwijfeld zal de recensie ze enigszins afbakenen en vervolgens zal de publieke publicatie verder worden verfijnd of gecensureerd, afhankelijk van uw perspectief op deze zaken. We zullen er binnenkort meer over te weten komen, en in de tussentijd duiken we in de technische kant van de zaak om de theorie en methoden achter deze nieuwe generatie modellen beter te begrijpen.