1-bit LLM’s zouden de energiebehoeften van AI kunnen oplossen

1-bit LLM’s zouden de energiebehoeften van AI kunnen oplossen

Grote taalmodellen, de AI-systemen die chatbots als ChatGPT aandrijven, worden steeds beter, maar ze worden ook steeds groter en vereisen meer energie en rekenkracht. Voor LLM’s die goedkoop, snel en milieuvriendelijk zijn, zullen ze moeten worden verkleind, idealiter klein genoeg om rechtstreeks op apparaten zoals mobiele telefoons te draaien. Onderzoekers vinden manieren om precies dat te doen door de vele zeer nauwkeurige getallen die hun herinneringen opslaan drastisch af te ronden tot slechts 1 of -1.

LLM wordt, net als alle neurale netwerken, getraind door de sterkte van verbindingen tussen de kunstmatige neuronen te veranderen. Deze bevoegdheden worden opgeslagen als wiskundige parameters. Onderzoekers hebben netwerken lange tijd gecomprimeerd door de precisie van deze parameters te verminderen – een proces dat kwantisering wordt genoemd – zodat ze in plaats van elk 16 bits in beslag te nemen, er 8 of 4 kunnen opnemen. Nu duwen onderzoekers de grenzen op naar één bit.

Hoe maak je een 1-bit LLM

Er zijn twee algemene benaderingen. Eén benadering, post-training kwantisering (PTQ) genoemd, is kwantisering met volledige precisie van netwerkparameters. Een andere benadering, kwantiseringsbewuste training (QAT), is om het netwerk helemaal opnieuw te trainen om parameters met lage precisie te krijgen. Tot nu toe was PTQ populairder onder onderzoekers.

In februari introduceerde een team bestaande uit Haotong Qin van de ETH Zürich, Xianglong Liu van de Beihang Universiteit en Wei Huang van de Universiteit van Hong Kong een PTQ-methode genaamd BiLLM. Het benadert de meeste parameters in het netwerk met behulp van 1 bit, maar vertegenwoordigt een paar significante gewichten – die de prestaties het meest beïnvloeden – met behulp van 2 bits. In één test binariseerde het team een ​​versie van Meta-e LLaMa LLM die 13 miljard parameters bevat.

“1-bit LLM’s openen nieuwe deuren voor het ontwerpen van aangepaste hardware en systemen die specifiek zijn geoptimaliseerd voor 1-bit LLM’s.” — Furu Wei, Microsoft Research Azië

Om de prestaties te evalueren, gebruikten de onderzoekers de zogenaamde metriekverwarring, wat in feite een maatstaf is voor hoe verbaasd het getrainde model was bij elk volgend stuk tekst. Voor één dataset had het oorspronkelijke model een verwarring van ongeveer 5, en de BiLLM-versie scoorde ongeveer 15, veel beter dan zijn naaste concurrent voor binarisatie, die ongeveer 37 scoorde (voor verwarring zijn lagere cijfers beter). Het BiLLM-model had echter ongeveer een tiende van de geheugencapaciteit nodig vergeleken met het origineel.

De PTQ heeft verschillende voordelen ten opzichte van de QAT, zegt Wanxiang Che, een computerwetenschapper aan het Harbin Institute of Technology, China. Er zijn geen trainingsgegevens nodig, het model hoeft niet helemaal opnieuw te worden getraind en het trainingsproces is stabieler. QAT daarentegen heeft het potentieel om modellen nauwkeuriger te maken, omdat kwantisering vanaf het begin in het model is ingebouwd.

1-bit LLM’s zijn succesvol tegen hun grotere neven

Vorig jaar creëerde een team onder leiding van Furu Wei en Shuming Ma van Microsoft Research Asia in Beijing BitNet, de eerste 1-bit QAT-methode voor LLM. Na te hebben gerommeld met de snelheid waarmee het netwerk zijn parameters aanpast om de training te stabiliseren, creëerden ze LLM’s die beter presteerden dan die gemaakt met behulp van PTQ-methoden. Ze waren nog steeds niet zo goed als volledige precisienetwerken, maar ongeveer tien keer energiezuiniger.

In februari kondigde het team van Wei BitNet 1.58b aan, waarin parameters gelijk kunnen zijn aan -1, 0 of 1, wat betekent dat ze ongeveer 1,58 bits geheugen per parameter in beslag nemen. Het BitNet-model met 3 miljard parameters presteerde net zo goed op een verscheidenheid aan taaltaken als het LLaMA-model met volledige precisie met hetzelfde aantal parameters en dezelfde hoeveelheid training – Wei noemde dit een ‘aha-moment’ – maar was 2,71 keer sneller, met 72 procent minder GPU-geheugen en 94 procent minder GPU-vermogen. Bovendien ontdekten de onderzoekers dat de efficiëntiewinst verbeterde naarmate ze grotere modellen trainden.

Het BitNet-model met 3 miljard parameters presteert net zo goed op verschillende taalkundige taken als het LLaMA-model met volledige precisie.

Dit jaar publiceerde een team onder leiding van Che, van het Harbin Institute of Technology, een voorafdruk over een andere LLM-binarisatiemethode, genaamd OneBit. OneBit combineert elementen van zowel post-training kwantisering (PTQ) als kwantiseringsbewuste training (QAT). Het gebruikt de volledige nauwkeurigheid van de vooraf getrainde LLM om de trainingsgegevens voor de gekwantiseerde versie te genereren. Het 13 miljard parametermodel van het team behaalde een verwarringsscore van ongeveer 9 op één dataset, vergeleken met 5 voor het LLaMA-model met 13 miljard parameters. Ondertussen nam OneBit slechts 10 procent meer geheugen in beslag. Op aangepaste chips zou het waarschijnlijk veel sneller kunnen werken.

Microsoft’s Wei zegt dat gekwantiseerde modellen meerdere voordelen hebben. Ze passen op kleinere chips, vereisen minder gegevensoverdracht tussen geheugen en processor en maken een snellere verwerking mogelijk. De huidige hardware kan echter niet optimaal profiteren van deze modellen. LLM’s draaien vaak op GPU’s zoals die van Nvidia, die gewichten vertegenwoordigen met een hogere precisie en het grootste deel van hun kracht besteden aan het vermenigvuldigen ervan. Nieuwe hardware zou elke parameter standaard kunnen weergeven als -1 of 1 (of 0) en vervolgens de waarden eenvoudigweg optellen en aftrekken en vermenigvuldiging vermijden. “1-bit LLM’s openen nieuwe deuren voor het ontwerpen van aangepaste hardware en systemen die specifiek zijn geoptimaliseerd voor 1-bit LLM’s”, zegt Wei.

“Ze zouden samen moeten opgroeien”, zegt Huang van de Universiteit van Hong Kong over 1-bit modellen en processors. “Maar er is nog een lange weg te gaan om nieuwe hardware te ontwikkelen.”

Uit artikelen op uw website

Gerelateerde artikelen op internet