Het MM1 AI-model van Apple laat zien hoe een slapende reus wakker wordt

Terwijl de technologie-industrie aandrong op generatieve kunstmatige intelligentie, hield één reus zich tegen: Apple. Het bedrijf moet nog zoveel door AI gegenereerde emoticons introduceren, en volgens a De New York Times Volgens het rapport van vandaag en eerdere rapporten van Bloomberg voert het voorbereidende gesprekken met Google over het toevoegen van het Gemini AI-zoekmodel van het bedrijf aan iPhones.

Toch suggereert een onderzoekspaper dat Apple-ingenieurs afgelopen vrijdag stilletjes online hebben gepubliceerd dat het bedrijf aanzienlijke nieuwe investeringen doet in kunstmatige intelligentie die al hun vruchten afwerpen. Het beschrijft de ontwikkeling van een nieuw generatief AI-model genaamd MM1, dat met tekst en afbeeldingen kan werken. De onderzoekers laten zien dat het vragen over foto’s beantwoordt en het soort algemene kennisvaardigheden toont die worden gedemonstreerd door chatbots zoals ChatGPT. De modelnaam wordt niet uitgelegd, maar het zou MultiModal 1 kunnen betekenen.

De MM1 lijkt qua ontwerp en verfijning vergelijkbaar te zijn met verschillende recente AI-modellen van andere technologiegiganten, waaronder Meta’s open source Llama 2 en Google Gemini. Uit werk van Apple’s rivalen en academici blijkt dat dit soort modellen kunnen worden gebruikt om capabele chatbots aan te drijven, of om ‘agenten’ te bouwen die taken kunnen oplossen door code te schrijven en acties uit te voeren, zoals het gebruik van computerinterfaces of webpagina’s. Dit suggereert dat MM1 mogelijk zijn weg zal vinden naar Apple-producten.

“Het feit dat ze dit doen laat zien dat ze het vermogen hebben om te begrijpen hoe ze deze modellen moeten trainen en bouwen”, zegt Ruslan Salakhutdinov, een professor bij Carnegie Mellon die enkele jaren geleden het onderzoek naar kunstmatige intelligentie bij Apple leidde. “Het vergt een bepaalde expertise.”

MM1 is een multimodaal groottaalmodel, of MLLM, wat betekent dat het zowel op afbeeldingen als op tekst is getraind. Hierdoor kan het model reageren op tekstvragen en complexe vragen over specifieke afbeeldingen beantwoorden.

Een voorbeeld in het onderzoeksrapport van Apple laat zien wat er gebeurde toen MM1 een foto te zien kreeg van een zonovergoten restauranttafel met verschillende bierflesjes en een menuafbeelding. Op de vraag hoeveel iemand zou verwachten te betalen voor ‘al het bier op tafel’, leest het model correct de exacte prijs en telt de prijs bij elkaar op.

Toen ChatGPT in november 2022 werd gelanceerd, kon het alleen tekst invoeren en genereren, maar onlangs hebben de maker OpenAI en anderen gewerkt aan het uitbreiden van de onderliggende technologie van het grote taalmodel om met andere soorten gegevens te werken. Toen Google afgelopen december Gemini (het model dat nu beantwoordt aan ChatGPT) lanceerde, prees het bedrijf zijn multimodale karakter aan als het begin van een belangrijke nieuwe richting in AI. “Na de opkomst van LLM’s komen MLLM’s naar voren als de volgende grens in basismodellen”, zegt Apple’s artikel.

MM1 is een relatief klein model, gemeten aan de hand van het aantal “parameters” of interne variabelen die worden aangepast terwijl het model wordt getraind. Kate Saenko, een professor aan de Universiteit van Boston die gespecialiseerd is in computervisie en machinaal leren, zegt dat dit het voor de technici van Apple gemakkelijker zou kunnen maken om met verschillende trainingsmethoden en verbeteringen te experimenteren voordat ze opschalen als ze iets veelbelovends tegenkomen.

Saenko zegt dat het MM1-document verrassend veel details biedt over hoe het model werd getraind voor de bedrijfspublicatie. De ingenieurs achter MM1 beschrijven bijvoorbeeld trucs om de modelprestaties te verbeteren, waaronder het verhogen van de beeldresolutie en het mixen van tekst- en afbeeldingsgegevens. Apple staat bekend om zijn geheimhouding, maar heeft eerder een ongebruikelijke openheid getoond over onderzoek naar kunstmatige intelligentie, omdat het probeert het talent aan te trekken dat nodig is om te concurreren op de belangrijkste technologie.