FLUX: Deze nieuwe AI-beeldgenerator is griezelig goed in het creëren van menselijke handen

Afbeelding gegenereerd door FLUX.1-ontwikkelaar:
Toename / Door AI gegenereerde afbeelding door FLUX.1-ontwikkelaar: “Mooie koningin van de ruimte, hand in hand, gezicht op de achtergrond.”

FLUX.1

Donderdag kondigde AI-startup Black Forest Labs de lancering aan van zijn bedrijf en de release van zijn eerste tekst-naar-beeld AI-modelsuite, genaamd FLUX.1. Het in Duitsland gevestigde bedrijf, opgericht door de onderzoekers die de technologie achter Stable Diffusion ontwikkelden en de Latent Diffusion-techniek uitvonden, heeft tot doel geavanceerde generatieve AI voor afbeeldingen en video’s te creëren.

De lancering van FLUX.1 komt ongeveer zeven weken na de onrustige release van Stable Diffusion 3 Medium door Stability AI medio juni. Het AI-stabiliteitsaanbod is onder wijdverspreide kritiek gekomen onder hobbyisten van beeldsynthese vanwege de slechte prestaties bij het creëren van de menselijke anatomie, waarbij gebruikers voorbeelden van vervormde ledematen en lichamen delen op sociale media. Die onrustige lancering volgde op het vroege vertrek van drie belangrijke ingenieurs van Stability AI – Robin Rombach, Andreas Blattmann en Dominic Lorenz – die samen met Latent Diffusion mede-ontwikkelaar Patrick Esser en anderen Black Forest Labs oprichtten.

Black Forest Labs is gelanceerd met de release van drie FLUX.1 tekst-naar-afbeelding-modellen: een hoogwaardige commerciële “pro”-versie, een middenklasse open-weight “dev”-versie voor niet-commercieel gebruik, en een snellere open -gewicht “schnell” -versie (“schnell” betekent snel of snel in het Duits). Black Forest Labs beweert dat zijn modellen beter presteren dan bestaande opties zoals Midjourney en DALL-E op gebieden als beeldkwaliteit en naleving van tekstquery’s.

In onze ervaring zijn de resultaten van de twee beste FLUX.1-modellen over het algemeen vergelijkbaar met OpenAI’s DALL-E 3 wat betreft snelle getrouwheid, met fotorealisme dat dicht bij Midjourney 6 lijkt. Ze vertegenwoordigen een aanzienlijke verbetering ten opzichte van Stable Diffusion XL, de laatste grote versie van het team. vrijgeven onder Stabiliteit (als je SDXL Turbo niet meetelt).

FLUX.1-modellen maken gebruik van wat het bedrijf een ‘hybride architectuur’ noemt die transformator- en diffusietechnieken combineert, opgeschaald naar 12 miljard parameters. Black Forest Labs zei dat het eerdere diffusiemodellen verbetert door flowmatching en andere optimalisaties op te nemen.

FLUX.1 lijkt competent te zijn in het genereren van menselijke handen, wat een zwak punt was in eerdere modellen voor beeldsynthese, zoals Stable Diffusion 1.5, vanwege het gebrek aan trainingsbeelden die zich op handen concentreerden. Sinds die begindagen hebben andere AI-beeldgeneratoren zoals Midjourney ook de handen onder de knie, maar het is opmerkelijk om een ​​model met open gewicht te zien dat handen in verschillende poses relatief nauwkeurig weergeeft.

We hebben het gewichtsbestand in het FLUX.1-ontwikkelmodel gedownload van GitHub, maar met 23 GB past het niet in de 12 GB VRAM van onze RTX 3060-kaart, dus het zal kwantisering nodig hebben om lokaal te kunnen werken (waardoor de omvang ervan wordt verkleind), wat zogenaamd (via reddit chat) sommige mensen hebben al succes gehad.

In plaats daarvan hebben we geëxperimenteerd met FLUX.1-modellen op AI-cloudhostingplatforms Fal en Replicate, die geld kosten om te gebruiken, hoewel Fal enkele gratis credits aanbiedt om aan de slag te gaan.

Het Zwarte Woud kijkt vooruit

Black Forest Labs is misschien een nieuw bedrijf, maar trekt al financiering aan van investeerders. Het sloot onlangs een Series A-financieringsronde van $ 31 miljoen af ​​onder leiding van Andreessen Horowitz, met aanvullende investeringen van General Catalyst en MätchVC. Het bedrijf heeft ook spraakmakende adviseurs ingeschakeld, waaronder entertainmentdirecteur en voormalig Disney-voorzitter Michael Ovitz en onderzoeker op het gebied van kunstmatige intelligentie Matthias Bethge.

“Wij geloven dat generatieve kunstmatige intelligentie de fundamentele bouwsteen zal zijn van alle toekomstige technologieën”, aldus het bedrijf in een verklaring. “Door onze modellen beschikbaar te maken voor een breder publiek, willen we de voordelen ervan voor iedereen beschikbaar maken, het publiek voorlichten en het vertrouwen in de veiligheid van deze modellen vergroten.”

Over ‘vertrouwen en veiligheid’ gesproken: het bedrijf zei niet waar het de trainingsgegevens vandaan haalde die de FLUX.1-modellen leerden hoe ze de afbeeldingen moesten genereren. Afgaande op de resultaten die we konden produceren met een model dat auteursrechtelijk beschermde karakterweergaven omvatte, heeft Black Forest Labs waarschijnlijk een enorme hoeveelheid ongeautoriseerde beeldanalyse op internet gebruikt, waarschijnlijk verzameld door LAION, de organisatie die de datasets verzamelde die Stable Diffusion trainden. Dit is op dit moment speculatie. Hoewel de technologische kernprestatie van FLUX.1 aanzienlijk is, lijkt het team snel en losjes te spelen met het ‘fair use’-ethos van het bijsnijden van afbeeldingen, net zoals Stability AI dat deed. Deze praktijk zou uiteindelijk tot rechtszaken kunnen leiden, zoals die tegen Stability AI.

Hoewel het genereren van tekst naar beeld de huidige focus van Schwarzwald is, is het bedrijf van plan uit te breiden naar het genereren van video. FLUX.1 zegt dat FLUX.1 zal dienen als basis voor een nieuw tekst-naar-video-model in ontwikkeling dat zal concurreren met OpenAI’s Sora, Gen- 3 Runway’s Alpha en Kuaishou’s Kling in een wedstrijd om de mediarealiteit op verzoek te vervormen. “Onze videomodellen maken het maken en bewerken van precisie in hoge definitie en ongekende snelheid mogelijk”, aldus de aankondiging van Schwarzwald.