Met de nieuwe Grok-upgrade van Musk kunnen X-gebruikers grotendeels ongecensureerde AI-afbeeldingen maken

Toename / Een door AI gegenereerde afbeelding van Donald Trump en een kitten gemaakt met Grok, die gebruik maakt van het Flux-beeldsynthesemodel.

Dinsdag kondigde Elon Musk’s AI-bedrijf xAI de bèta-release aan van twee nieuwe taalmodellen, Grok-2 en Grok-2 mini, beschikbaar voor abonnees van zijn sociale mediaplatform X (voorheen Twitter). De modellen zijn ook gekoppeld aan het onlangs uitgebrachte Flux-beeldsynthesemodel, waarmee X-gebruikers grotendeels ongecensureerde fotorealistische afbeeldingen kunnen maken die op de site kunnen worden gedeeld.

“Flux, verkrijgbaar via Grok, is een geweldige tekst-naar-beeldgenerator, maar het is ook erg goed in het maken van nepfoto’s van echte locaties en mensen en deze rechtstreeks naar Twitter te sturen”, schreef frequente AI-commentator Ethan Mollick op X. Weet iemand of ze op de een of andere manier een watermerk hebben? Dat zou een goed idee zijn.”

In een eerder vandaag gepubliceerd rapport stelde The Verge dat de mogelijkheden voor het genereren van afbeeldingen van Grok minimale waarborgen bieden, waardoor gebruikers potentieel controversiële inhoud kunnen creëren. Volgens hun tests produceerde Grok op verzoek afbeeldingen van politieke figuren in compromitterende situaties, auteursrechtelijk beschermde karakters en geweldscènes.

Toename / Een door AI gegenereerde afbeelding van Donald Trump en Kamala Harris in een vliegtuig, gemaakt met Grok, dat gebruik maakt van het Flux-beeldsynthesemodel.

The Verge ontdekte dat hoewel Grok beweert bepaalde beperkingen te hebben, zoals het vermijden van pornografische of buitensporig gewelddadige inhoud, deze regels in de praktijk inconsistent lijken. In tegenstelling tot andere grote AI-beeldgeneratoren lijkt Grok geen zoekopdrachten waarbij echte mensen betrokken zijn, af te wijzen of identificerende watermerken aan de output toe te voegen.

Gezien wat mensen tot nu toe hebben gegenereerd – inclusief foto’s van Donald Trump en Kamala Harris die elkaar kussen of hun duim omhoog steken op weg naar de Twin Towers tijdens de schijnbare aanslag van 11 september – zullen onbeperkte resultaten misschien niet lang aanhouden. Maar aan de andere kant heeft Elon Musk op zijn platform veel aandacht besteed aan de ‘vrijheid van meningsuiting’, dus misschien blijft die mogelijkheid bestaan (totdat iemand waarschijnlijk een rechtszaak wegens smaad of auteursrecht aanspant).

Mensen die de beeldgenerator van Grok gebruiken om te choqueren roept op dit moment een oude vraag op het gebied van AI op: moet misbruik van een AI-beeldgenerator de verantwoordelijkheid zijn van de persoon die de zoekopdracht maakt, de organisatie die het AI-model heeft gemaakt, of het platform dat de afbeelding? Tot nu toe bestaat er geen duidelijke consensus en moet de situatie nog juridisch worden opgelost, hoewel een nieuwe voorgestelde Amerikaanse wet, de NO FAKES-wet genaamd, X waarschijnlijk verantwoordelijk zou houden voor het creëren van een realistisch beeld van deepfakes.

Met Grok-2 blijft het GPT-4-plafond nog steeds bestaan

Verder kijkend dan de afbeeldingen beweert xAI in een blogpost over de release dat de Grok-2 en Grok-2 mini een aanzienlijke verbetering van de mogelijkheden vertegenwoordigen, waarbij de Grok-2 naar verluidt beter presteert dan sommige toonaangevende concurrenten in recente benchmarks en wat wij noemen ” sfeermerken.” Het is altijd verstandig om deze beweringen met een zekere scepsis te benaderen, maar het lijkt erop dat de “GPT-4-klasse” van AI-taalmodellen (die met vergelijkbare mogelijkheden als het OpenAI-model) is gegroeid, maar de GPT-4-barrière nog niet. gebroken.

“Er zijn nu vijf modellen van de GPT-4-klasse: GPT-4o, Claude 3.5, Gemini 1.5, Llama 3.1 en nu Grok 2”, schreef Ethan Mollick over X. “Alle laboratoria zeggen dat er ruimte over is voor de reus aan verbeteringen om door te gaan, maar we moeten nog een model zien dat echt boven GPT-4 springt…”

xAI zegt dat het onlangs een vroege versie van de Grok-2 heeft onthuld in de LMSYS Chatbot Arena genaamd “sus-column-r”, waar het naar verluidt een hogere algemene Elo-score behaalde dan die van de Claude 3.5 Sonnet en GPT-4 Turbo. Chatbot Arena is een populaire subjectieve vibemarking-website voor AI-modellen, maar was onlangs onderwerp van controverse toen mensen het niet eens waren met de hoge positie van de OpenAI GPT-4o mini.

Volgens xAI laten beide nieuwe Grok-modellen verbeteringen zien ten opzichte van hun Grok-1.5-voorganger op gebieden als wetenschap op universitair niveau, algemene kennis en het oplossen van wiskundige problemen op benchmarks die eveneens controversieel zijn gebleken. Het bedrijf benadrukte ook de prestaties van Grok-2 op het gebied van visuele taken en beweerde dat de resultaten state-of-the-art zijn op het gebied van visueel wiskundig redeneren en op documenten gebaseerde vraagbeantwoording.

Toename / Grok-2 benchmarktestresultaten geleverd door xAI.

De modellen zijn nu beschikbaar voor X Premium- en Premium+-abonnees via een bijgewerkte app-interface. In tegenstelling tot sommige van zijn concurrenten op het gebied van open gewichten, publiceert xAI geen modelgewichten voor download of onafhankelijke verificatie. Deze gesloten aanpak staat in schril contrast met de recente stappen van Meta, die onlangs zijn Llama 3.1 405B-model heeft uitgebracht voor elke lokale download en uitvoering.

xAI is van plan beide modellen later deze maand via een enterprise API uit te brengen. Het bedrijf zegt dat deze API implementatieopties voor meerdere regio’s en beveiligingsmaatregelen zal omvatten, zoals verplichte multi-factor authenticatie. Details over prijzen, gebruiksbeperkingen of beleid voor gegevensverwerking zijn nog niet vrijgegeven.

Afgezien van het genereren van een fotorealistisch beeld, is misschien wel de grootste fout van Grok-2 de diepe verbinding met X, waardoor het de neiging heeft om onnauwkeurige informatie uit tweets te halen. Het is een beetje alsof je een vriend hebt die erop staat een sociale-mediapagina te controleren voordat hij je vragen beantwoordt, zelfs als deze niet bijzonder relevant zijn.

Zoals Mollick op X opmerkte, kan deze nauwe relatie lastig zijn: “Ik heb momenteel alleen toegang tot de Grok 2 mini, en het lijkt een solide model te zijn, maar het lijkt vaak te worden misbruikt door de RAG Twitter-verbinding. “schreef hij. “Het model krijgt resultaten van Twitter die irrelevant lijken voor de prompt, en probeert ze vervolgens wanhopig samen te voegen tot iets samenhangends.”