De nieuwe versie van Google Gemini kan veel grotere hoeveelheden gegevens verwerken

“In zekere zin werkt het vergelijkbaar met ons brein, waar niet het hele brein voortdurend wordt geactiveerd”, zegt Oriol Vinyals, hoofd van het deep learning-team bij DeepMind. Deze scheiding bespaart AI-rekenkracht en kan sneller antwoorden genereren.

“Dat soort vloeiendheid dat heen en weer gaat over verschillende modaliteiten, en dat gebruikt om te zoeken en te begrijpen, is zeer indrukwekkend”, zegt Oren Etzioni, voormalig technisch directeur van het Allen Institute for Artificial Intelligence, die niet bij het werk betrokken was. “Dit zijn dingen die ik nog niet eerder heb gezien.”

Een AI die op verschillende modaliteiten kan opereren, zou meer lijken op de manier waarop mensen zich gedragen. “Mensen zijn van nature multimodaal”, zegt Ecioni; we kunnen moeiteloos schakelen tussen spreken, schrijven en tekenen van afbeeldingen of grafieken om ideeën over te brengen.

Ecioni waarschuwde er echter voor om niet te veel betekenis aan de ontwikkelingen te hechten. “Er is een beroemde regel”, zegt hij. “Vertrouw nooit een AI-demo.”

Om te beginnen is het niet duidelijk hoeveel demovideo’s zijn weggelaten of geselecteerd uit de verschillende taken (Google kreeg wel kritiek vanwege de vroege lancering van Gemini omdat het niet had opgemerkt dat de video was versneld). Het is ook mogelijk dat het model sommige demonstraties niet zou kunnen repliceren als de tekstinvoer enigszins zou worden gewijzigd. AI-modellen in het algemeen zijn volgens Etzioni kwetsbaar.

De huidige release van Gemini 1.5 Pro is beperkt tot ontwikkelaars en zakelijke gebruikers. Google heeft niet gespecificeerd wanneer het beschikbaar zal zijn voor een bredere release.