Hoe u gratis tekst kunt transcriberen met AI

Lang voordat AI werd gebruikt om video’s en codeprogramma’s te genereren, werd het gebruikt om gesproken taal te begrijpen en ernaar te handelen. AI is de reden dat u met Alexa, Siri en Google Assistant kunt praten en deze apps uw biedingen kunt laten doen.

Met dezelfde algoritmen kunt u digitale transcripties maken van audiobestanden die spraak bevatten, of het nu gaat om vergaderingen, interviews, lezingen of alleen maar spraaknotities die u voor uzelf hebt opgenomen. Afschriften geven u een schriftelijke weergave van wat er is gezegd en zijn gemakkelijk doorzoekbaar.

Transcriptiediensten van grote namen, zoals Rev en Happy Scribe, bieden slechts een beperkte hoeveelheid transcriptie gratis aan, maar dankzij Whisper kunt u de klus klaren zonder iets te betalen. Dit is een spraak-naar-tekst-engine ontwikkeld door OpenAI (bekend van ChatGPT) en er zijn geen beperkingen op het gebruik ervan.

Je hebt de mogelijkheid om de webversie van de app te gebruiken die wordt gehost op Hugging Face, wat handig is maar tijdens piekuren vaak druk is. Je kunt er ook voor kiezen om de software lokaal op Windows te installeren – dit betekent snellere transcripties, maar je hebt een fatsoenlijke pc nodig om aan de AI-verwerkingseisen te voldoen.

Fluister op internet

screenshot van fluisterinterface — Whisper op internet is snel en gemakkelijk te gebruiken. *Schermafbeelding: Fluister*

Ga naar Whisper on Hugging Face en je kunt de audio gratis rechtstreeks in je browser laten transcriberen – je hoeft je niet eens aan te melden voor een account. U heeft de mogelijkheid om een audiobestand vanaf uw computer te uploaden, of u kunt uw toespraak rechtstreeks in de app opnemen als u een microfoon heeft aangesloten. Houd er rekening mee dat uw audio kan worden gebruikt om toekomstige AI-modellen verder te trainen – zoals vaak het geval is, is het privacybeleid van OpenAI en Hugging Face hierover onduidelijk.

Een audiobestand uploaden en verwerken:

Open het Geluidsbestand tabblad.
Kiezen Klik om te uploaden.
Selecteer een audiobestand.
Bekijken Herschrijven de doos.
Klik Indienen.

Na enkele ogenblikken (of langer) ziet u tekstuitvoer aan de rechterkant van het scherm. De verwerkingstijden variëren afhankelijk van de lengte van uw audiobestand en hoe druk de servers van Hugging Face zijn. Omdat dit een gratis dienst is die voor iedereen toegankelijk is, is deze ook erg populair, waardoor het kan zijn dat u lang moet wachten voordat bestanden door de wachtrij zijn gegaan.

Binnen de interface vindt u verschillende handige tools. Klik bijvoorbeeld op het kleine potloodpictogram net boven de audioafspeelbalk en u kunt het begin en einde van een fragment inkorten – handig als u stiltes of onbelangrijke delen van de audio wilt verwijderen.

Je kunt ook overstappen naar Microfoon audio-opnamekaart rechtstreeks in de Whisper-interface of schakel over naar YouTube tabblad en download transcripties van elke video. Plak gewoon de video-URL en je bent klaar om te gaan. Het is vermeldenswaard dat YouTube al automatisch transcripties aan sommige video’s toevoegt, die je kunt vinden in de commentaarsecties.

Fluisteren op Windows

schermafdruk van de code — Whisper gebruikt een eenvoudige opdrachtregelinterface. Schermafbeelding: Fluister

Als u veel vertraging ervaart in de Whisper-webapp of als u gewoon wilt dat uw transcriptieverwerking meer lokaal en privé is, kunt u een AI-model instellen op een Windows-pc. Je hebt een voor CUDA geschikte grafische kaart nodig (zie hier voor een lijst), met minimaal 4 GB VRAM, om de verwerking uit te voeren. Als je een relatief recente Nvidia-kaart hebt geïnstalleerd, komt deze waarschijnlijk in aanmerking.

Dit proces is veel complexer en biedt niet veel gebruikersinterfaces, dus het is niet voor iedereen geschikt. Het heeft echter de voordelen die we al hebben genoemd en u hoeft niet in de rij te staan wachten tot uw bestanden zijn verwerkt. Het is ook een geweldig klein project als je graag met code en programma’s rommelt.

Ervan uitgaande dat uw computer aan de eisen voldoet, moet u een aantal bits op uw computer installeren: Python voor codering (zorg ervoor dat Voeg python.exe toe aan PATH gecontroleerd tijdens de installatie), PyTorch voor machine learning-bibliotheken, Chocolatey voor softwarepakketbeheer en FFmpeg voor audioverwerking. Ze worden allemaal geleverd met installatie-instructies op de relevante websites, als je die nodig hebt.

Dan ben je klaar om Whisper zelf te installeren: Zoek naar “cmd” in het Startmenu en open het Opdrachtprompttyp vervolgens “pip install -U openai-whisper” en druk op Binnenkomen. Zodra de installatie is voltooid, kunt u de bestanden als volgt overschrijven:

Open de map met uw audiobestanden in Verkenner.
Klik bovenaan op de adresbalk, typ “cmd” en druk op Binnenkomen.
Typ ‘whisper’, vervolgens een spatie en vervolgens de naam van uw audiobestand.
Hit Binnenkomen opnieuw en de verwerking begint.

De tekst wordt op het scherm weergegeven en opgeslagen als een reeks tekstbestanden in dezelfde map als de audio. Als u meerdere bestanden tegelijkertijd moet converteren, vermeldt u ze allemaal na het commando “whisper”, waarbij u ze allemaal scheidt met een spatie.

Zelfs als u niet bekend bent met Python of de opdrachtregel, zou u niet al te veel moeite moeten hebben om alles operationeel te krijgen. Er zijn veel handleidingen online die u kunnen helpen als u hulp nodig heeft. Dit is een van de beste tutorials die je stap voor stap door elke fase leidt en enkele van de geavanceerde functies uitlegt die voor je beschikbaar zijn (zoals het overstappen naar een ander AI-model).