Diffusietransformatoren zijn de sleutel achter OpenAI's Sora - en ze staan klaar om GenAI op zijn kop te zetten

Sora van OpenAI, dat in een mum van tijd video’s en interactieve 3D-omgevingen kan genereren, is een uitstekende demonstratie van de allernieuwste ontwikkelingen op het gebied van GenAI – een goede mijlpaal.

Maar interessant genoeg verscheen een van de innovaties die hiertoe leidde, de AI-modelarchitectuur, in de volksmond bekend als de diffusietransformator, een paar jaar geleden op de AI-onderzoeksscène.

Diffusion Transformer, ook mogelijk gemaakt door AI-startup Stability AI’s nieuwste beeldgenerator, Stable Diffusion 3.0, lijkt klaar om het GenAI-veld te transformeren door GenAI-modellen verder te laten schalen dan voorheen mogelijk was.

Saining Xie, hoogleraar computerwetenschappen aan de NYU, begon in juni 2022 aan het onderzoeksproject dat de diffusietransformator voortbracht. Samen met William Peebles, zijn mentor toen Peebles stagiair was bij Meta’s AI Research Lab en nu medeleider van Sora bij OpenAI, Xie combineerde twee concepten in machine learning: verspreiding En transformator — om een diffuse transformator te creëren.

De meeste moderne AI-aangedreven mediageneratoren, waaronder OpenAI’s DALL-E 3, vertrouwen op een proces dat diffusie wordt genoemd om afbeeldingen, video’s, spraak, muziek, 3D-meshes, illustraties en meer uit te voeren.

Het is niet het meest intuïtieve idee, maar feitelijk wordt er langzaam ruis toegevoegd aan een stukje media (bijvoorbeeld een beeld) totdat het onherkenbaar wordt. Dit wordt herhaald om een dataset van luidruchtige media op te bouwen. Wanneer een diffusiemodel hierop wordt getraind, leert het hoe het geleidelijk ruis kan wegnemen, waardoor het stap voor stap dichter bij het doeluitvoermateriaal komt (bijvoorbeeld een nieuw beeld).

Diffusiemodellen hebben meestal een “ruggengraat” of een soort motor, een zogenaamde U-Net. De U-Net-backbone leert inschatten welke ruis moet worden verwijderd – en dat doet hij goed. Maar U-netten zijn complex, met speciaal ontworpen modules die de diffusiepijplijn dramatisch kunnen vertragen.

Gelukkig kunnen transformatoren U-Nets vervangen en daarbij de efficiëntie en prestaties een boost geven.

Video gegenereerd door Sora.

Transformers zijn de voorkeursarchitectuur voor complexe inferentietaken en vormen de basis voor modellen als GPT-4, Gemini en ChatGPT. Ze hebben verschillende unieke kenmerken, maar veruit het onderscheidende kenmerk van transformatoren is hun ‘aandachtsmechanisme’. Voor elke invoergegevens (in het geval van diffusie, beeldruis), transformatoren wegen de relevantie van elkaars input (andere beeldruis) en daaruit extraheren om een output te genereren (schatting van beeldruis).

Het aandachtsmechanisme maakt transformatoren niet alleen eenvoudiger dan andere modelarchitecturen, maar maakt de architectuur ook parallel. Met andere woorden: steeds grotere transformatormodellen kunnen worden getraind met een aanzienlijke maar niet onhaalbare toename van de rekenkracht.

“Wat transformatoren bijdragen aan het diffusieproces is vergelijkbaar met een motorupgrade”, vertelde Xie aan TechCrunch in een e-mailinterview. “De introductie van de transformator… markeert een aanzienlijke sprong in schaalbaarheid en efficiëntie. Dit komt vooral tot uiting in modellen als Sora, die profiteren van training over enorme hoeveelheden videogegevens en uitgebreide modelparameters gebruiken om het transformerende potentieel van transformatoren te demonstreren wanneer ze op schaal worden toegepast.”

Gegenereerd door gestage diffusie 3.

Dus waarom duurde het jaren voordat projecten als Sore en Stable Diffusion ze gingen gebruiken, aangezien het idee voor diffusietransformatoren al een tijdje bestaat? Xie denkt dat het belang van een schaalbaar backbone-model pas relatief recent aan het licht is gekomen.

“Het Sora-team deed er echt alles aan om te laten zien hoeveel meer je met deze aanpak op grote schaal kunt doen”, zei hij. ‘Ze hebben vrij duidelijk gemaakt dat de U-Nets offline zijn transformatoren traan verspreiding modellen vanaf nu.”

Diffusietransformatoren zou moeten een eenvoudige vervanging zijn voor bestaande diffusiemodellen, zegt Xie – of de modellen nu afbeeldingen, video’s, audio of een andere vorm van media genereren. Het huidige proces van het trainen van diffusietransformatoren brengt mogelijk enkele inefficiënties en prestatieverlies met zich mee, maar Xie gelooft dat dit op de lange termijn kan worden opgelost.

“Het komt erop neer dat het vrij simpel is: vergeet U-Nets en stap over naar transformatoren, omdat ze sneller zijn, beter presteren en schaalbaarder zijn”, zegt hij. “Ik ben geïnteresseerd in de integratie van de domeinen van begrip en inhoudcreatie binnen diffusietransformatoren. Op dit moment lijken dit twee verschillende werelden: één om te begrijpen en één om te creëren. Ik zie een toekomst voor me waarin deze aspecten worden geïntegreerd, en ik geloof dat het bereiken van deze integratie standaardisatie van de onderliggende architecturen vereist, waarbij transformatoren hiervoor ideale kandidaten zijn.”

Als Sora en Stable Diffusion 3.0 een voorproefje zijn van wat we kunnen verwachten met Diffusion Transformers, zou ik zeggen dat we een wilde rit tegemoet gaan.