Waarom het ‘open source’ AI-bedrijf Grok van Elon Musk ertoe doet

Elon Musk’s xAI heeft dit weekend zijn grote Grok-taalmodel als “open source” vrijgegeven. De miljardair hoopt blijkbaar zijn bedrijf tegenover concurrent OpenAI te plaatsen, dat ondanks zijn naam niet bijzonder open is. Maar draagt het vrijgeven van de code voor zoiets als Grok daadwerkelijk bij aan de AI-ontwikkelgemeenschap? Ja en nee.

Grok is een chatbot die door xAI is getraind om dezelfde, vaag gedefinieerde rol te vervullen als ChatGPT of Claude: jij vraagt het, hij antwoordt. Deze LLM nam echter een brutale toon aan en voegde toegang tot Twitter-gegevens toe om zich te onderscheiden van de rest.

Zoals altijd zijn deze systemen bijna niet te beoordelen, maar de algemene consensus lijkt te zijn dat ze concurrerend zijn met middenklassemodellen van de laatste generatie zoals de GPT-3.5. (Of je dit indrukwekkend vindt gezien de korte ontwikkelingstijdlijn of teleurstellend gezien het budget en de bombastische omgeving van xAI, is geheel aan jou.)

Hoe dan ook, Grok is een moderne en functionele LLM van aanzienlijke omvang en capaciteiten, en hoe meer toegang tot ontwikkelaarsgemeenschappen voor dergelijke dingen, hoe beter. Het probleem is het definiëren van ‘open’ op een manier die meer doet dan het claimen van de morele hoge gronden voor een bedrijf (of een miljardair).

Dit is niet de eerste keer dat de termen ‘open’ en ‘open source’ in twijfel worden getrokken of misbruikt in de wereld van kunstmatige intelligentie. En we hebben het niet alleen over technische kwesties, zoals het kiezen van een licentie die niet zo open is als een andere (Grok is Apache 2.0, voor het geval je het je afvraagt).

Om te beginnen verschillen AI-modellen van andere software doordat ze ‘open source’ zijn.

Als je bijvoorbeeld een tekstverwerker bouwt, is het relatief eenvoudig om deze open source te maken: je maakt al je code openbaar en laat de gemeenschap verbeteringen voorstellen of hun eigen versie bouwen. Een deel van wat open source tot een waardevol concept maakt, is dat elk aspect van een applicatie origineel is of wordt toegeschreven aan de oorspronkelijke maker ervan. Deze transparantie en naleving van de juiste toeschrijving is niet slechts een bijproduct, maar de kern van het open concept zelf.

Met kunstmatige intelligentie is dit waarschijnlijk helemaal niet mogelijk, omdat de manier waarop machine learning-modellen worden gemaakt een grotendeels onkenbaar proces inhoudt waarin enorme hoeveelheden trainingsgegevens worden gedestilleerd tot een complexe statistische representatie waarvan niemand de structuur echt regisseert of zelfs maar begrijpt. . Dit proces kan niet worden herzien, herzien en verbeterd op de manier waarop traditionele code dat kan. Hoewel het in zekere zin nog steeds enorme waarde heeft, kan het nooit open source zijn. (De standaardengemeenschap heeft nog niet eens gedefinieerd wat in deze context open zal zijn, maar bespreekt dit actief.)

Dat heeft AI-ontwikkelaars en bedrijven er niet van weerhouden hun modellen te ontwerpen en te beweren dat ze ‘open’ zijn, een term die in deze context veel van zijn betekenis heeft verloren. Sommigen noemen hun model ‘open’ als er een publieke interface of API is. Sommigen noemen het “open” als ze een document vrijgeven dat het ontwikkelingsproces beschrijft.

Waarschijnlijk komt een AI-model het dichtst in de buurt van “open source” wanneer de ontwikkelaars het vrijgeven gewichten, dat wil zeggen de exacte kenmerken van de talloze knooppunten van zijn neurale netwerken, die vectorwiskundige bewerkingen in precieze volgorde uitvoeren om het patroon te voltooien dat is gestart door gebruikersinvoer. Maar zelfs ‘open gewichten’-modellen zoals LLaMa-2 sluiten andere belangrijke gegevens uit, zoals de trainings- en procesdatasets – die nodig zouden zijn om helemaal opnieuw te creëren. (Sommige projecten gaan natuurlijk verder.)

Dit alles nog voordat zelfs maar wordt vermeld dat er miljoenen dollars aan computer- en technische middelen nodig zijn om deze modellen te creëren of te repliceren, waardoor effectief wordt beperkt wie ze kan creëren en repliceren tot bedrijven met aanzienlijke middelen.

Dus waar valt de Grok-release van xAI in dit spectrum?

Als open gewichtsmodel kan iedereen het downloaden, gebruiken, wijzigen, fijnsnijden of distilleren. Het is goed! Het lijkt een van de grootste modellen te zijn waar iedereen op deze manier vrij toegang toe heeft, in termen van parameters – 314 miljard – waardoor nieuwsgierige ingenieurs genoeg hebben om aan te werken als ze de prestaties ervan willen testen na verschillende aanpassingen.

De grootte van het model heeft echter ernstige nadelen: je hebt honderden gigabytes snel RAM nodig om het in deze ruwe vorm te gebruiken. Als je niet al een tiental Nvidia H100’s hebt met zescijferige AI-gevolgtrekkingen, klik dan niet op de downloadlink.

En hoewel de Grok aantoonbaar concurrerend is met sommige andere moderne modellen, is hij ook veel, veel groter dan zij, wat betekent dat er meer middelen nodig zijn om hetzelfde te bereiken. Er is altijd een hiërarchie van omvang, efficiëntie en andere maatstaven, en het is nog steeds waardevol, maar dit is meer grondstof dan eindproduct. Het is ook niet duidelijk of dit de nieuwste en beste versie van Grok is, zoals de duidelijk aangepaste versie waartoe sommigen via X toegang hebben.

Al met al is het goed om deze gegevens vrij te geven, maar het is niet de gamechanger waar sommigen op hoopten.

Het is ook moeilijk om je niet af te vragen waarom Musk dit doet. Zet zijn nieuwe AI-bedrijf zich echt in voor open source-ontwikkeling? Of is dit gewoon modder in de ogen van OpenAI, waarmee Musk momenteel miljardairs wil creëren?

Als ze echt toegewijd zijn aan open source-ontwikkeling, zal dit de eerste van vele releases zijn, en hopelijk zullen ze rekening houden met feedback van de gemeenschap, andere belangrijke informatie vrijgeven, het proces van trainingsgegevens karakteriseren en hun aanpak verder uitleggen. Als dat niet het geval is, en het wordt alleen gedaan zodat Musk er in online argumenten op kan wijzen, is het nog steeds waardevol. Het is gewoon niet iets waar iemand in de AI-wereld de komende maanden op zal vertrouwen of waar hij veel aandacht aan zal besteden. spelen met het model.