Hobbyisten ontdekken hoe ze aangepaste lettertypen kunnen invoegen in door AI gegenereerde afbeeldingen

Een voorbeeld van Cyberpunk 2077 LoRA in actie, weergegeven met Flux dev.
Toename / Voorbeeld gegenereerd door kunstmatige intelligentie Cyberpunk 2077 LoRA, weergegeven met Flux dev.

Vorige week ontdekte een hobbyist die experimenteerde met het nieuwe Flux AI-beeldsynthesemodel dat het onverwacht goed was in het weergeven van aangepaste letterreproducties. Hoewel er al tientallen jaren veel efficiëntere methoden voor het weergeven van computerlettertypen bestaan, is de nieuwe techniek nuttig voor liefhebbers van AI-afbeeldingen, omdat Flux in staat is nauwkeurige tekstweergaven weer te geven en gebruikers nu direct woorden die in aangepaste lettertypen worden weergegeven, kunnen invoegen in AI-afbeeldingsgeneraties.

We beschikken al sinds de jaren tachtig (in de onderzoekswereld) over de technologie om nauwkeurig vloeiende, computergerenderde lettertypen in aangepaste vormen te produceren, dus het creëren van een door AI gerepliceerd lettertype is op zichzelf geen groot nieuws. Maar de nieuwe techniek betekent dat je een specifiek lettertype kunt zien verschijnen in door AI gegenereerde afbeeldingen van bijvoorbeeld een schoolbordmenu in een fotorealistisch restaurant of een gedrukt visitekaartje in de hand van een cyborgvos.

Kort na de opkomst van reguliere AI-beeldsynthesemodellen zoals Stable Diffusion in 2022 begonnen sommige mensen zich af te vragen: hoe kan ik mijn eigen product, kleding, karakter of stijl in een door AI gegenereerd beeld invoegen? Eén antwoord dat naar voren kwam, kwam in de vorm van LoRA (low-rank adaptatie), een techniek die in 2021 werd ontdekt en waarmee gebruikers kennis in het onderliggende AI-model kunnen uitbreiden met modulaire toevoegingen die zijn afgestemd op training.

Met deze LoRA’s, zoals de modules worden genoemd, kunnen beeldsynthesemodellen nieuwe concepten creëren die oorspronkelijk niet gevonden (of slecht weergegeven) zijn in de trainingsgegevens van het basismodel. In de praktijk gebruiken liefhebbers van beeldsynthese ze om unieke stijlen (bijvoorbeeld alles in krijtkunst) of thema’s (gedetailleerde afbeeldingen van Spider-Man bijvoorbeeld) weer te geven. Elke LoRA moet specifiek worden getraind op basis van door de gebruiker aangeleverde voorbeelden.

Tot Flux waren de meeste AI-beeldgeneratoren niet erg goed in het weergeven van nauwkeurige tekst binnen een scène. Als u Stable Diffusion 1.5 zou vragen een bord weer te geven met de tekst ‘kaas’, zou het gebabbel hersteld worden. OpenAI’s DALL-E 3, die vorig jaar werd uitgebracht, was het eerste mainstream-model dat redelijk goed kon sms’en. Flux maakt nog steeds soms fouten met woorden en letters, maar het is het meest capabele AI-model voor het weergeven van ‘tekst ter wereld’ (zo zou je het kunnen noemen) dat we tot nu toe hebben gezien.

Omdat Flux een open model is dat kan worden gedownload en verfijnd, was vorige maand de eerste training dat een LoRA-lettertype zinvol zou kunnen zijn. Dit is precies wat een Een AI-liefhebber genaamd Vadim Fedenko (die op het moment van schrijven niet op een interviewverzoek reageerde) werd onlangs ontdekt. “Echt onder de indruk van hoe dit is afgelopen”, schreef Fedenko in een bericht op Reddit. “Flux detecteert hoe letters er in een bepaalde stijl/lettertype uitzien, waardoor het mogelijk is om Lora’s te trainen met bepaalde lettertypen, lettertypen etc. Binnenkort gaan we verder trainen.”

Voor zijn eerste experiment koos Fedenko een sprankelend lettertype in “Y2K”-stijl dat doet denken aan het lettertype dat eind jaren negentig en begin jaren 2000 populair was, en bracht het resulterende model op 20 augustus uit op het Civitai-platform. Twee dagen later plaatste een Civitai-gebruiker met de naam “AggravatingScree7189” een ander LoRA-lettertype dat een lettertype reproduceert dat lijkt op het lettertype gevonden in Cyberpunk 2077 videogame.

“De tekst was zo slecht voordat het bij me opkwam dat je dat kon doen”, schreef een Reddit-gebruiker genaamd eggs-benedryl toen hij reageerde op Fedenko’s bericht over het Y2K-lettertype. Een andere Redditor schreef: “Ik wist niet dat het Y2K-logboek nep was totdat ik erop inzoomde.”

Is dat overdreven?

Primjer <em>Cyberpunk 2077</em> LoRA, weergegeven met Flux-ontwikkelaar.” src=”https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2-640×357.jpg” width=”640″ height=”357″ srcset=” https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2.jpg 2x”/><figcaption class=
Toename / Voorbeeld voor Cyberpunk 2077 LoRA, weergegeven met Flux dev.

De waarheid is dat het gebruik van een diepgetraind neuraal netwerk voor beeldsynthese om een ​​gewoon oud lettertype op een effen achtergrond weer te geven waarschijnlijk overdreven is. U zou deze methode waarschijnlijk niet willen gebruiken om Adobe Illustrator te vervangen tijdens het ontwerpen van een document.

“Dit ziet er goed uit, maar het is best grappig hoe we het idee van lettertypen als 300 MB LoRA opnieuw uitvinden”, schreef een Reddit-commentator in een thread over Cyberpunk 2077 lettertype.

Generatieve AI wordt vaak bekritiseerd vanwege de gevolgen voor het milieu, en dit is een terechte zorg voor enorme clouddatacenters. Maar we ontdekken dat Flux deze lettertypen in door AI gegenereerde scènes kan invoegen terwijl ze lokaal op een RTX 3060 draaien in gekwantiseerde (verkleinde) vorm (en een volledig ontwikkelingsmodel kan draaien op een RTX 3090). Het elektriciteitsverbruik is vergelijkbaar met het spelen van een videogame op dezelfde computer. Hetzelfde geldt voor het creëren van LoRA: creator Cyberpunk 2077 lettertype getrainde LoRA in drie uur op een 3090 GPU.

Er zijn ook ethische problemen bij het gebruik van AI-beeldgeneratoren, zoals de manier waarop ze worden getraind op het gebied van verzamelde gegevens zonder toestemming van de inhoudseigenaren. Hoewel de technologie onder sommige artiesten verdeeldheid zaait, gebruikt een grote gemeenschap van mensen het elke dag en deelt de resultaten online via sociale mediaplatforms zoals Reddit, wat leidt tot nieuwe toepassingen van de technologie zoals deze.

Op het moment van schrijven zijn er slechts twee aangepaste LoRA Flux-lettertypen, maar we hebben al plannen gehoord dat mensen er meer zullen maken terwijl we dit schrijven. Hoewel de techniek voor het maken van LoRA-letters nog in de kinderschoenen staat, kan deze van fundamenteel belang worden als AI-beeldsynthese in de toekomst op grotere schaal wordt toegepast. Adobe, met zijn eigen modellen voor beeldsynthese, kijkt waarschijnlijk toe.