Google's Gemini is het echte begin van de generatieve kunstmatige intelligentie-boom

De geschiedenis van kunstmatige intelligentie wordt onderbroken door periodes van zogenaamde ‘kunstmatige-intelligentiewinter’, waarin de technologie op een dood spoor leek te belanden en de financiering stopte. Ze gingen allemaal vergezeld van uitspraken dat het voor mensen te moeilijk was om machines echt intelligent te maken.

De release van Google van Gemini, waarvan wordt beweerd dat het een fundamenteel nieuw type AI-model is en het krachtigste van het bedrijf tot nu toe, suggereert dat er niet snel een nieuwe AI-winter zal komen. Hoewel de twaalf maanden sinds de lancering van ChatGPT een geweldig jaar zijn geweest voor AI, is er een goede reden om aan te nemen dat de huidige AI-boom nog maar net begonnen is.

OpenAI had geen hoge verwachtingen toen het in november 2022 een ‘ingehouden onderzoek’ lanceerde genaamd ChatGPT. Het was gewoon een test van een nieuwe interface voor zijn Text Generating Large Language Models (LLM). Maar het vermogen van de chatbot om zo’n breed scala aan dingen te doen, van het synthetiseren van essays en poëzie tot het oplossen van codeerproblemen, heeft veel mensen onder de indruk gebracht en van streek gemaakt en de technologie-industrie in vuur en vlam gezet. Toen OpenAI zijn nieuwe GPT-4 LLM aan ChatGPT toevoegde, waren sommige experts zo ontsteld dat ze het bedrijf smeekten om het rustiger aan te doen.

Er was al weinig bewijs dat iemand gehoor had gegeven aan deze wake-up call. Nu is het ondenkbaar dat Google de inzet heeft verhoogd – en misschien de spelregels heeft gewijzigd – door Gemini aan te kondigen.

Google haastte zich eerder dit jaar al om rechtstreeks op ChatGPT te reageren in de vorm van Bard, en lanceerde uiteindelijk de LLM-chatbottechnologie die het eerder dan OpenAI had ontwikkeld, maar besloot privé te houden. Met Gemini beweert hij een nieuw tijdperk te hebben ingeluid dat verder gaat dan voornamelijk tekstverankerde LLM’s, en mogelijk de weg vrijmaakt voor een nieuwe ronde AI-producten die aanzienlijk verschillen van die van ChatGPT.

Google noemt Gemini een ‘native multimodaal’ model, wat betekent dat het kan leren van andere gegevens dan tekst, en ook inzichten kan verkrijgen uit audio, video en afbeeldingen. ChatGPT laat zien hoe AI-modellen een indrukwekkende hoeveelheid over de wereld kunnen leren als ze voldoende tekst krijgen. Sommige AI-onderzoekers hebben betoogd dat het eenvoudigweg opschalen van taalmodellen hun capaciteiten zodanig zou vergroten dat ze met mensen zouden kunnen concurreren.

Maar je kunt maar zoveel leren over de fysieke werkelijkheid door het filter van de tekst die mensen erover hebben geschreven, en de moeilijk uit te roeien beperkingen van LLM’s zoals GPT-4 – zoals hallucinerende informatie, slecht beoordelingsvermogen en hun vreemde beveiligingsfouten – lijken te suggereren dat het opschalen van bestaande technologie zijn beperkingen heeft.

Voorafgaand aan de aankondiging van Gemini gisteren sprak WIRED met Demis Hassabis, de directeur die leiding gaf aan de ontwikkeling van Gemini en wiens eerdere prestaties onder meer het leiden van het team waren dat de bovenmenselijke Go-playing bot AlphaGo ontwikkelde. Hij was voorspelbaar enthousiast over Gemini, met het argument dat het nieuwe mogelijkheden introduceert waardoor Google-producten uiteindelijk zullen opvallen. Maar Hassabis zei ook dat LLM’s gecombineerd zullen moeten worden met andere AI-technieken, om AI-systemen te leveren die de wereld kunnen begrijpen op een manier die de huidige chatbots niet kunnen.

Hassabis concurreert agressief met OpenAI, maar de rivalen lijken het erover eens te zijn dat radicale nieuwe benaderingen nodig zijn. Een mysterieus project dat bij OpenAI loopt, genaamd Q*, suggereert dat het bedrijf ook ideeën onderzoekt die meer inhouden dan alleen het schalen van systemen zoals GPT-4.

Dit valt samen met opmerkingen van OpenAI CEO Sam Altman van MIT in april, toen hij duidelijk maakte dat ondanks het succes van ChatGPT het AI-veld een groot nieuw idee nodig heeft om aanzienlijke verdere vooruitgang te boeken. “Ik denk dat we aan het einde zijn van een tijdperk waarin het deze gigantische modellen zullen zijn,” zei Altman. “We gaan ze op andere manieren beter maken.”

Google heeft misschien zojuist een aanpak gedemonstreerd die verder gaat dan ChatGPT. Maar misschien wel de meest opvallende boodschap van de lancering van Gemini is dat Google klaar is om richting iets betekenisvols te gaan dan de huidige chatbots, net zoals OpenAI lijkt te zijn.