Blackwell, AMD Instinct, ongebonden AI: eerste benchmarks

Hoewel de dominantie van Nvidia GPU’s voor AI-training onbetwist blijft, zien we mogelijk eerste tekenen dat, wat betreft AI-gevolgtrekking, de concurrentie wint van de technologiegigant, vooral in termen van energie-efficiëntie. De pure prestaties van Nvidia’s nieuwe Blackwell-chip zijn echter misschien moeilijk te verslaan.

Vanochtend maakte ML Commons de resultaten bekend van zijn nieuwste AI-inferentiewedstrijd, ML Perf Inference v4.1. Deze ronde omvatte de eerste inzendingen van teams die AMD Instinct-accelerators, de nieuwste Google Trillium-accelerators, chips van het in Toronto gevestigde UntetherAI gebruikten, evenals de eerste proefversie van Nvidia’s nieuwe Blackwell-chip. Twee andere bedrijven, Cerebras en FuriosaAI, hebben nieuwe inferentiechips aangekondigd, maar hebben zich niet gecommitteerd aan MLPerf.

Net als een Olympische sport heeft MLPerf veel categorieën en subcategorieën. De categorie met het grootste aantal inzendingen was de categorie ‘gesloten datacenter’. De gesloten categorie (in tegenstelling tot de open) vereist dat aanvragers een conclusie trekken over een bepaald model zoals het is, zonder significante softwareaanpassingen. De categorie datacenters test indieners op bulkverwerking van query’s, in tegenstelling tot de categorie edge, waar het minimaliseren van de latentie centraal staat.

Binnen elke categorie zijn er 9 verschillende benchmarks voor verschillende soorten AI-taken. Deze omvatten populaire gebruiksscenario’s zoals het genereren van afbeeldingen (denk aan Midjourney) en LLM Q&A (denk aan ChatGPT), evenals even belangrijke maar minder aangekondigde taken zoals beeldclassificatie, objectdetectie en een aanbevelingsengine.

Deze competitieronde omvatte een nieuwe benchmark, genaamd Mixture of Experts. Dit is een groeiende trend in de LLM-implementatie, waarbij het taalmodel wordt opgesplitst in verschillende kleinere, onafhankelijke taalmodellen, elk afgestemd op een specifieke taak, zoals gewone gesprekken, het oplossen van wiskundige problemen en helpen bij het coderen. Een model kan elke vraag doorsturen naar een geschikte subset van kleinere modellen of ‘experts’. Deze aanpak maakt minder gebruik van bronnen per zoekopdracht mogelijk, waardoor lagere kosten en een hogere doorvoer mogelijk zijn, zegt Miroslav Hodak, voorzitter van de MLPerf Inference Working Group en senior lid van de technische staf bij AMD.

De winnaars in elke benchmark binnen de populaire gesloten datacenterbenchmark waren nog steeds inzendingen gebaseerd op Nvidia’s H200 GPU’s en GH200 superchips, die GPU’s en CPU’s in hetzelfde pakket combineren. Een nadere blik op de prestatieresultaten schetst echter een complexer beeld. Sommige indieners gebruikten veel acceleratorchips, terwijl anderen er maar één gebruikten. Als we het aantal vragen per seconde dat elke indiener kon afhandelen normaliseren op basis van het aantal gebruikte versnellers en alleen de best presterende voor elk versnellertype behouden, komen er enkele interessante details naar voren. (Het is belangrijk op te merken dat deze benadering de rol van de CPU en onderlinge verbindingen negeert.)

Per accelerator presteert Nvidia’s Blackwell 2,5 keer beter dan alle voorgaande iteraties van de chip op de LLM Q&A-taak, de enige benchmark waaraan het werd onderworpen. De speedAI240 Preview-chip van Untether AI was bijna vergelijkbaar met de H200 in zijn enige inzendingstaak, beeldherkenning. Google’s Trillium deed het iets meer dan de helft zo goed als de H100 en H200s bij het genereren van afbeeldingen, en AMD’s Instinct was ongeveer gelijk aan de H100 bij de LLM Q&A-taak.

De kracht van Blackwell

Een van de redenen voor het succes van Nvidia Blackwell is de mogelijkheid om LLM uit te voeren met behulp van 4-bit drijvende-kommaprecisie. Nvidia en zijn rivalen verminderen het aantal bits dat wordt gebruikt om gegevens weer te geven in delen van transformatormodellen zoals ChatGPT om de berekeningen te versnellen. Nvidia introduceerde 8-bit wiskunde met de H100, en deze indiening markeert de eerste demonstratie van 4-bit wiskunde op de MLPerf-benchmarks.

De grootste uitdaging bij het gebruik van zulke lage precisiecijfers is het handhaven van de nauwkeurigheid, zegt Nvidia-directeur productmarketing Dave Salvator. Om de hoge nauwkeurigheid die vereist is voor MLPerf-inzendingen te behouden, moest het Nvidia-team de software aanzienlijk innoveren, zegt hij.

Een andere belangrijke bijdrage aan het succes van de Blackwell is de bijna verdubbelde geheugenbandbreedte, 8 terabytes/seconde, vergeleken met de 4,8 terabytes/seconde van de H200.

een zwarte doos met goud- en regenboogvierkantjes erop op een zwarte achtergrond Nvidia GB2800 Grace Blackwell SuperchipNvidia

Nvidia’s Blackwell-inzending gebruikte een enkele chip, maar Salvator zegt dat deze is gebouwd voor netwerken en schaalvergroting en het beste zal werken in combinatie met Nvidia’s NVLink-interconnects. Blackwell GPU’s ondersteunen tot 18 NVLink-verbindingen van 100 gigabyte per seconde voor een totale bandbreedte van 1,8 terabytes per seconde, ongeveer het dubbele van de bandbreedte van de H100-verbinding.

Salvatore stelt dat naarmate grote taalmodellen groter worden, zelfs voor gevolgtrekkingen platforms met meerdere GPU’s nodig zullen zijn om aan de vraag te kunnen voldoen, en Blackwell is gebouwd voor deze mogelijkheid. “Blackwell is een platform”, zegt Salvator.

Nvidia heeft zijn Blackwell-chipgebaseerde systeem in de preview-subcategorie geplaatst, wat betekent dat het nog niet te koop is, maar naar verwachting beschikbaar zal zijn vóór de volgende MLPerf-release, over zes maanden.

Untether AI schittert in energieverbruik en op het randje

Voor elke benchmark bevat MLPerf ook een tegenhanger voor stroommeting, die systematisch het stopcontactvermogen test dat elk systeem verbruikt tijdens het uitvoeren van een taak. Het hoofdevenement (energiecategorie gesloten datacenters) had deze ronde slechts twee indieners: Nvidia en Untether AI. Terwijl Nvidia in alle benchmarks meedeed, deed Untether alleen een aanvraag voor beeldherkenning.

Indiener	Gaspedaal	Aantal versnellers	Aantal zoekopdrachten per seconde	Watt	Aantal zoekopdrachten per seconde per watt
NVIDIA	NVIDIA H200-SXM-141GB	8	480.131,00	5.013,79	95,76
UntetherAI	UntetherAI-snelheidAI240 Slank	6	309.752,00	985,52	314.30

De startup slaagde erin deze indrukwekkende efficiëntie te bereiken door chips te bouwen met een aanpak die in-memory computing wordt genoemd. De chips van UntetherAI zijn gebouwd als een netwerk van geheugenelementen met kleine processors er direct naast. De processors zijn parallel en werken allemaal gelijktijdig met gegevens in nabijgelegen geheugeneenheden, waardoor de hoeveelheid tijd en energie die wordt besteed aan het wisselen van modelgegevens tussen geheugen en rekenkernen aanzienlijk wordt verminderd.

“Wat we hebben gezien is dat 90 procent van de energie die nodig is om een AI-werklast uit te voeren bestaat uit het verplaatsen van gegevens van DRAM naar de cache naar het verwerkingselement”, zegt Untether AI VP Product Robert Beachler. “Dus wat Untether deed was dat omdraaien… In plaats van data naar computers te verplaatsen, ga ik computers naar data verplaatsen.”

Deze aanpak is bijzonder succesvol gebleken in een andere subcategorie van MLPerf: marginaal gesloten. Deze categorie is gericht op meer gebruiksscenario’s in het veld, zoals fabrieksmachine-inspectie, visiegestuurde robotica en autonome voertuigen – toepassingen waarbij een laag energieverbruik en snelle verwerking voorop staan, zegt Beachler.

Indiener	GPU-type	Aantal GPU’s	Enkele overdrachtlatentie (ms)	Multicast-latentie (ms)	Monsters/s
Lenovo	NVIDIA L4	2	0,39	0,75	25.600,00
Lenovo	NVIDIA L40S	2	0,33	0,53	86.304,60
UntetherAI	UntetherAI speedAI240 Overzicht	2	0,12	0,21	140.625,00

Bij de beeldherkenningstaak, opnieuw de enige waarvoor UntetherAI resultaten rapporteerde, presteerde de speedAI240 Preview-chip 2,8x beter dan de latentieprestaties van de NVIDIA L40S en de doorvoer (samples per seconde) met 1,6x. De startup leverde ook vermogensresultaten in deze categorie, maar hun door Nvidia versnelde concurrenten niet, dus het is moeilijk om een directe vergelijking te maken. Het nominale energieverbruik per chip voor de UntetherAI speedAI240 Preview-chip is echter 150 W, terwijl dit voor Nvidia’s L40s 350 W is, wat resulteert in een nominale vermogensreductie van 2,3x met verbeterde latentie.

Cerebras en Furiosa slaan MLPerf over, maar kondigen nieuwe chips aan

zwarte doos met witte dozen De nieuwe chip van Furiosa implementeert de wiskundige basisfunctie van AI-redeneren, matrixvermenigvuldiging, op een andere, efficiëntere manier. Furiosa

Gisteren op de IEEE Hot Chips-conferentie in Stanford onthulde Cerebras zijn eigen inferentiedienst. Het bedrijf uit Sunnyvale, Californië, maakt gigantische chips zo groot als een siliciumwafel toelaat, waardoor onderlinge verbindingen tussen chips worden vermeden en de geheugenbandbreedte van hun apparaten enorm wordt vergroot, die voornamelijk worden gebruikt om enorme neurale netwerken te trainen. Hij heeft nu zijn softwarestack geüpgraded om zijn nieuwste CS3-computer voor gevolgtrekkingen te gebruiken.

Hoewel Cerebras zich niet aan MLPerf heeft onderworpen, beweert het bedrijf dat zijn platform 7x beter presteert dan H100 en de chip van rivaliserende AI-startup Groq 2x overtreft in LLM-tokens die per seconde worden gegenereerd. “Vandaag bevinden we ons in het inbeltijdperk van de AI-generatie”, zegt Cerebras CEO en mede-oprichter Andrew Feldman. “En dat komt omdat er een geheugenbandbreedtebarrière is. Of het nu de H100 van Nvidia is of de MI 300 of de TPU, ze gebruiken allemaal hetzelfde off-chip geheugen en produceren dezelfde beperkingen. We vechten ons hier een weg doorheen, en we doen het omdat we flinterdun zijn.”

Hot Chips zag ook de aankondiging van Furios uit Seoul, die zijn tweede generatie chip introduceerde, de RNGD (uitgesproken als “renegade”). Wat de chip van Furiosa onderscheidt, is de Tensor Contraction Processor (TCP) -architectuur. Een basisbewerking bij AI-workloads is matrixvermenigvuldiging, die meestal als primitief in hardware wordt geïmplementeerd. De grootte en vorm van matrices, beter bekend als tensoren, kunnen echter sterk variëren. RNGD implementeert de vermenigvuldiging van deze meer algemene versie, de tensor, als een primitief. “Tijdens de inferentie variëren de batchgroottes sterk, dus het is belangrijk om te profiteren van het inherente parallellisme en hergebruik van gegevens uit een bepaalde tensorvorm”, vertelde Furiosa-oprichter en CEO June Paik aan Hot Chips.

Hoewel niet onderworpen aan MLPerf, vergeleek Furiosa de prestaties van zijn RNGD-chip met de interne LLM-sommatiebenchmark van MLPerf. Hij presteerde op hetzelfde niveau als Nvidia’s edge-georiënteerde L40S-chip, terwijl hij slechts 185 W aan vermogen gebruikte, vergeleken met de 320 W van de L40S. En, zegt Paik, de prestaties zullen verbeteren met verdere software-optimalisaties.

IBM kondigde ook zijn nieuwe Spyre-chip aan, ontworpen voor generatieve AI-workloads, die beschikbaar zal zijn in het eerste kwartaal van 2025.

Kopers op de markt voor AI-inferentiechips zullen zich de komende tijd in ieder geval niet vervelen.

Uit artikelen op uw website