Transcribe with Distil-Whisper

Fungerar med allmänt tillgängligt ljud och video. DRM-skyddat innehåll stöds inte.

Uppgradering för förbättrad
Private transcript
Chatta med utskrift
Lås upp med Pro →
Släpp fil här eller klicka för att bläddra
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM – upp till 2GB
Uppgradering för förbättrad
Private transcript
Chatta med utskrift
Lås upp med Pro →
Uppgradering för förbättrad
Inspelning: 0:00
Realtid Vosk (instant)
Förstärkt Viskar (korrekt)
Allmänna länkar: 24h, endast text · Registrera dig för 7d + ljud · För för privata förbindelser

Real-time tal till text. AI auto-korrigerar medan du talar — noggrannheten förbättras med längre tal.

Testa din mikrofon först
❤️ Love STT.ai? Tell your friends!
Du har använt dina gratis transkriptioner

Registrera dig gratis för att få 600 minuter/månad, eller uppgradera för obegränsade transkriptioner.

10 gratis min/dag 600 min gratis med anmälan Inget kreditkort Krypterad
Registrera dig gratis →
5.8%
WER
99
Languages
48.0x
Speed
MIT
License

About Distil-Whisper

Vanliga frågor

Distil-Whisper är en tal-till-text-modell med Hugging Face. STT.ai värd Distil-Whisper på vår GPU-infrastruktur så att du kan använda den utan att tillhandahålla din egen hårdvara – ladda upp ljud eller video och plocka Distil-Whisper från modellen plockare.

På standard riktmärken, Distil-Whisper uppnår cirka 8801% Word Felfrekvens. Real-world noggrannhet beror på ljudkvalitet, accent och språk; för bullriga eller accentiva inspelningar, förvänta sig några procentenheter högre WER.

Distil-Whisper körs på STT.ai gratis nivå – varje besökare får 600 minuter/månad utan kostnad. Betald planer lägga längre per fil gränser, privata utskrifter, och prioritet köa.

Distil-Whisper släpps under MIT, en tillåtande öppen källkod licens. Du kan själv värd Distil-Whisper på din egen hårdvara eller använda vår värd version – båda är kommersiellt användbara.

Distil-Whisper stöder 99 språk. Automatisk upptäckt väljer rätt språk för de flesta ljud; du kan också ange det manuellt för en liten noggrannhet lyft.

Distil-Whisper behandlar ljud på ca 48.0x realtid på våra GPUs. En 1-timmars ljudfil slutar på under 1 minuter; längre filer köa och meddela via e-post när det är gjort.

Distil-Whisper har 756M parametrar. Större modeller tenderar att vara mer exakta men långsammare; STT.ai värd Distil-Whisper på GPU så parametern räknas inte påverkar din klient-sidan prestanda.

Distil-Whisper accepterar varje format STT.ai stöder — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, med flera. Utmatning som TXT, SRT, VTT, DOCX, JSON, eller PDF.

Ja. Högtalardiarization körs vid sidan av Distil-Whisper för varje transkription — varje talare är märkt och du kan byta namn på dem i redaktören efteråt.

Ja. Distil-Whisper körs i vår hanterade miljö — ljud behandlas och tas bort som standard och aldrig används för utbildning utan uttrycklig opt-in. Pro planer lägga klient-side kryptering för utskrifter i vila.

Använd jämförelse-stt verktyg för att köra Distil-Whisper mot någon annan stöds modell på samma ljud - du kommer att se WER, segment räkna, högtalare etiketter och förtroende poäng sida vid sida. Distil-Whisper vs Whisper Large V3 jämförelse är den vanligaste köras.

Ja. Ange "distil-whisper" som modellparameter för /v1/transkriptiv endpoint. Python och Node.js SDKs inkluderar Distil-Whisper exempel. Gratis API-nivå inkluderar 100 minuter/månad.

Ja. Eftersom Distil-Whisper är MIT-licensierad, kan du själv värd den. STT.ai öppen källkod sida listar projektet repo och vikter. De flesta produktionsteam använder vår värd version för att hoppa över GPU upphandling, modellswappar, och ops.