Google Gemini: alles wat u moet weten over het nieuwe generatieve AI-platform

Google probeert furore te maken met Gemini, het vlaggenschippakket van generatieve AI-modellen, apps en services.

Dus wat is Tweelingen? Hoe kun je het gebruiken? En hoe presteert het ten opzichte van de concurrentie?

Om het voor u gemakkelijker te maken om op de hoogte te blijven van de nieuwste Gemini-ontwikkelingen, hebben we deze handige gids samengesteld, die we zullen updaten zodra nieuwe Gemini-modellen, functies en nieuws over de plannen van Google voor Gemini worden aangekondigd.

Wat is Tweelingen?

Gemini is Google’s lang beloofde familie van GenAI-modellen van de volgende generatie, ontwikkeld door Google’s onderzoekslaboratoria voor kunstmatige intelligentie DeepMind en Google Research. Het is verkrijgbaar in drie smaken:

  • Tweeling Ultrahet meest efficiënte Gemini-model.
  • Tweeling Pro“licht” model Gemini.
  • Tweeling Nanoeen kleiner “gedestilleerd” model dat draait op mobiele apparaten zoals de Pixel 8 Pro.

Alle Gemini-modellen zijn getraind om ‘van nature multimodaal’ te zijn – met andere woorden: ze kunnen meer doen en gebruiken dan alleen woorden. Ze waren vooraf getraind en verfijnd op het gebied van een verscheidenheid aan audio, afbeeldingen en video’s, een groot aantal codebases en tekst in verschillende talen.

Dit onderscheidt Gemini van modellen zoals Google’s eigen LaMDA, die uitsluitend op tekstgegevens is getraind. LaMDA kan niets anders begrijpen of genereren dan tekst (bijvoorbeeld essays, e-mailconcepten), maar dit is niet het geval bij de Gemini-modellen.

Wat is het verschil tussen Gemini-apps en Gemini-modellen?

Google's Bard

Afbeeldingscredits: Googlen

Google bewees opnieuw zijn gebrek aan merkvaardigheden en maakte vanaf het begin niet duidelijk dat Gemini los stond van de Gemini web- en mobiele apps (voorheen Bard). Gemini-apps zijn eenvoudigweg een interface waarmee toegang kan worden verkregen tot specifieke Gemini-modellen. Zie ze als een client voor Google GenAI.

Anders zijn de Gemini-apps en -modellen ook volledig onafhankelijk van Imagen 2, het tekst-naar-afbeelding-model van Google dat beschikbaar is in sommige programmeertools en -omgevingen van het bedrijf.

Wat kan Tweelingen doen?

Omdat Gemini-modellen multimodaal zijn, kunnen ze in theorie een verscheidenheid aan multimodale taken uitvoeren, van spraaktranscriptie tot beeld- en video-ondertiteling tot het genereren van illustraties. Sommige van deze functies moeten het productstadium nog bereiken (daarover later meer) en Google belooft ze allemaal (en meer) ergens in de niet al te verre toekomst.

Het is natuurlijk een beetje moeilijk om het woord van een bedrijf te geloven.

Google heeft de oorspronkelijke lancering van Bard ernstig verprutst. En onlangs verstoorde hij de veren met een video die zogenaamd de capaciteiten van Gemini liet zien, die grotendeels afgemeten en min of meer ambitieus bleken te zijn.

Maar aangenomen dat Google min of meer trouw is aan zijn beweringen, is dit wat de verschillende niveaus van Gemini zullen kunnen doen wanneer ze hun volledige potentieel bereiken:

Tweeling Ultra

Google zegt dat de Gemini Ultra – dankzij zijn multimodaliteit – kan worden gebruikt om te helpen met zaken als natuurkundehuiswerk, stapsgewijze problemen op een werkblad op te lossen en mogelijke fouten in reeds voltooide antwoorden aan te wijzen.

Gemini Ultra kan ook worden toegepast voor taken zoals het identificeren van wetenschappelijke artikelen die relevant zijn voor een bepaald probleem, zegt Google – het extraheren van informatie uit die artikelen en het ‘bijwerken’ van een grafiek uit een artikel door de formules te genereren die nodig zijn om de grafiek opnieuw te creëren met nieuwere gegevens.

Gemini Ultra ondersteunt technisch het genereren van afbeeldingen, zoals reeds vermeld. Maar die mogelijkheid is nog niet in de productieversie van het model opgenomen – misschien omdat het mechanisme complexer is dan de manier waarop apps als ChatGPT afbeeldingen genereren. In plaats van vragen naar een beeldgenerator te sturen (zoals DALL-E 3, in het geval van ChatGPT), zendt Gemini op “natuurlijke wijze” beelden uit, zonder tussenstap.

Gemini Ultra is beschikbaar als API via Vertex AI, het volledig beheerde AI-ontwikkelplatform van Google, en AI Studio, de webgebaseerde toolkit van Google voor applicatie- en platformontwikkelaars. Er worden ook Gemini-apps op uitgevoerd, maar niet gratis. Voor toegang tot Gemini Ultra via wat Google Gemini Advanced noemt, is een abonnement op het Google One AI Premium-abonnement vereist, geprijsd op $ 20 per maand.

Het AI Premium-abonnement koppelt Gemini ook aan je bredere Google Workspace-account: denk aan e-mail in Gmail, documenten in Documenten, presentaties in Spreadsheets en Google Meet-opnames. Dat is handig als je bijvoorbeeld e-mails wilt condenseren of Gemini aantekeningen wilt laten maken tijdens een videogesprek.

Tweeling Pro

Google zegt dat Gemini Pro een verbetering is ten opzichte van LaMDA wat betreft de mogelijkheden voor gevolgtrekking, planning en begrip.

Uit een onafhankelijk onderzoek door onderzoekers van Carnegie Mellon en BerriAI bleek dat de eerste versie van Gemini Pro inderdaad beter was dan OpenAI GPT-3.5 wat betreft het omgaan met langere en complexere gevolgtrekkingsketens. Maar uit het onderzoek bleek ook dat deze versie van Gemini Pro, net als alle grote taalmodellen, vooral worstelde met wiskundige problemen waarbij meerdere cijfers betrokken waren, en gebruikers vonden voorbeelden van slechte redeneringen en flagrante fouten.

Google beloofde echter een oplossing – en de eerste arriveerde in de vorm van de Gemini 1.5 Pro.

De Gemini 1.5 Pro is ontworpen als drop-in vervanging en is op een aantal gebieden verbeterd in vergelijking met zijn voorganger, misschien wel het meest significant wat betreft de hoeveelheid gegevens die hij kan verwerken. Gemini 1.5 Pro kan ongeveer 700.000 woorden of ongeveer 30.000 regels code bevatten – 35 keer zoveel als Gemini 1.0 Pro aankan. En – het model is multimodaal – beperkt zich niet tot tekst. Gemini 1.5 Pro kan tot 11 uur audio of een uur video in verschillende talen analyseren, zij het langzaam (het zoeken naar een scène in een video van een uur duurt bijvoorbeeld 30 seconden tot één minuut verwerking).

Gemini 1.5 Pro ging in april naar de openbare preview op Vertex AI.

Een extra eindpunt, Gemini Pro Vision, kan tekst verwerken En afbeeldingen (inclusief foto’s en video) en tekstuitvoer die voldoet aan OpenAI GPT-4 met het Vision-model.

Tweelingen

Gemini Pro gebruiken in Vertex AI. Afbeeldingscredits: Tweelingen

Binnen Vertex AI kunnen ontwikkelaars Gemini Pro aanpassen aan specifieke contexten en gebruiksscenario’s met behulp van een verfijnings- of “aarding”-proces. Gemini Pro kan ook verbinding maken met externe API’s van derden om bepaalde acties uit te voeren.

In AI Studio zijn er workflows voor het maken van gestructureerde chatquery’s met Gemini Pro. Ontwikkelaars hebben toegang tot zowel Gemini Pro- als Gemini Pro Vision-eindpunten en kunnen de temperatuur van het model aanpassen om het creatieve bereik van de uitvoer te regelen en voorbeelden geven om toon en stijl te instrueren – en om beveiligingsinstellingen aan te passen.

Tweeling Nano

De Gemini Nano is een veel kleinere versie van de Gemini Pro- en Ultra-modellen en is efficiënt genoeg om rechtstreeks op (sommige) telefoons te draaien in plaats van de taak ergens naar een server te sturen. Tot nu toe introduceert het verschillende functies op de Pixel 8 Pro, Pixel 8 en Samsung Galaxy S24, waaronder Summarize in Recorder en Smart Reply in Gboard.

De Recorder-app, waarmee gebruikers op een knop kunnen drukken om audio op te nemen en te transcriberen, bevat een door Gemini ondersteunde samenvatting van uw opgenomen gesprekken, interviews, presentaties en andere clips. Gebruikers krijgen deze samenvattingen zelfs als ze geen signaal of Wi-Fi-verbinding hebben. En met een knipoog naar de privacy verlaten daarbij geen gegevens hun telefoon.

De Gemini Nano zit ook in Gboard, de toetsenbordapp van Google. Dat is waar het een functie lanceert met de naam Smart Reply, waarmee u het volgende kunt voorstellen dat u wilt zeggen tijdens het chatten in de berichten-app. De functie werkt in eerste instantie alleen met WhatsApp, maar zal in de loop van de tijd naar meer apps komen, zegt Google.

En in de Google Berichten-app op ondersteunde apparaten schakelt de Nano Magic Compose in, waarmee berichten kunnen worden gemaakt in stijlen als ‘opgewonden’, ‘formeel’ en ‘lyrisch’.

Is Gemini beter dan OpenAI GPT-4?

Google heeft herhaaldelijk de superioriteit van Gemini op het gebied van benchmarks aangeprezen en beweerd dat Gemini Ultra de huidige stand van zaken overtreft op “30 van de 32 veelgebruikte academische benchmarks die worden gebruikt bij onderzoek en ontwikkeling van grote taalmodellen”. Het bedrijf zegt dat de Gemini 1.5 Pro ondertussen in sommige scenario’s beter in staat is tot taken als het samenvatten van inhoud, brainstormen en schrijven dan de Gemini Ultra; dit zal waarschijnlijk veranderen met de release van het volgende Ultra-model.

Maar afgezien van de vraag of de benchmarks echt een beter model aangeven, lijken de resultaten die Google laat zien slechts marginaal beter te zijn dan de overeenkomstige OpenAI-modellen. En – zoals eerder vermeld – waren sommige eerste indrukken niet geweldig, waarbij gebruikers en academici erop wezen dat de oudere versie van Gemini Pro de neiging heeft om basisfeiten verkeerd te interpreteren, moeite heeft met vertalingen en slechte coderingssuggesties geeft.

Hoeveel kost Tweelingen?

Gemini 1.5 Pro is gratis te gebruiken in Gemini-applicaties en voorlopig in AI Studio en Vertex AI.

Wanneer de Gemini 1.5 Pro echter bij Vertex uit de test komt, zal het model $0,0025 per karakter kosten, terwijl de output $0,00005 per karakter zal kosten. Vertex-klanten betalen per 1.000 tekens (ongeveer 140 tot 250 woorden) en, in het geval van modellen als de Gemini Pro Vision, per afbeelding ($0,0025).

Laten we zeggen dat een artikel van 500 woorden 2000 tekens bevat. Samenvattend zou dat artikel met Gemini 1.5 Pro $ 5 kosten. Ondertussen zou het genereren van een artikel van vergelijkbare lengte $ 0,1 kosten.

Ultra-prijzen zijn nog niet bekendgemaakt.

Waar kun je Gemini proberen?

Tweeling Pro

Gemini Pro wordt het gemakkelijkst ervaren in Gemini-toepassingen. Pro en Ultra reageren op vragen in verschillende talen.

Gemini Pro en Ultra zijn ook beschikbaar voor preview in Vertex AI via API. De API is momenteel gratis te gebruiken “binnen bepaalde grenzen” en ondersteunt bepaalde regio’s, waaronder Europa, evenals functies zoals chatfunctionaliteit en filtering.

Elders zijn Gemini Pro en Ultra te vinden in AI Studio. Met behulp van de service kunnen ontwikkelaars op Gemini gebaseerde zoekopdrachten en chatbots herhalen en vervolgens API-sleutels verkrijgen die ze in hun apps kunnen gebruiken – of de code exporteren naar een completere IDE.

Code Assist (voorheen Duet AI for Developers), Google’s suite met AI-aangedreven hulpprogramma’s voor het aanvullen en genereren van code, maakt gebruik van Gemini-modellen. Ontwikkelaars kunnen “grootschalige” wijzigingen aanbrengen in codebases, zoals het bijwerken van afhankelijkheden tussen bestanden en het beoordelen van grote stukken code.

Google introduceerde Gemini-modellen in zijn Chrome-ontwikkelaarstools en het Firebase mobiele ontwikkelaarsplatform, evenals in zijn tools voor het maken en beheren van databases. En het heeft nieuwe beveiligingsproducten gelanceerd die worden ondersteund door Gemini, zoals Gemini in Threat Intelligence, een onderdeel van Google’s Mandiant-cyberbeveiligingsplatform dat grote hoeveelheden potentieel kwaadaardige code kan analyseren en gebruikers in staat stelt om in natuurlijke taal te zoeken naar voortdurende bedreigingen of indicatoren van compromissen.