Transcribe with Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
About Distil-Whisper
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Ofte stilte spørsmål
Distil-Whisper er ein tale-til-tekst-modell frå Hugging Face. STT.ai er vert for Distil-Whisper på vår GPU-infrastruktur, slik at du kan bruka han utan å ha din eigen maskinvare — last opp lyd eller video og vel Distil-Whisper frå modellveljaren.
På standard målestokkar oppnår Distil-Whisper om lag 5.8% ordfeilrate. Nøyaktigheita i verkeleg liv avheng av lydkvalitet, aksent og språk. For støyande eller aksenterte opptak, kan du venta eit par prosentpoeng høgare WER.
Distil-Whisper køyrer på STT.ai sitt gratisnivå — kvar besøkjar får 600 minutt/månad utan kostnad. Betalte abonnement legg til lengre grense per fil, private transkripsjonar og prioritert kø.
Distil-Whisper er utgjeve under MIT, ein permissiv open kjeldekode-lisens. Du kan sjølv ha Distil-Whisper på din eigen maskinvare eller bruke vår vertsversjon — begge er kommersielt brukbare.
Distil-Whisper støttar 99 språk. Automatisk oppdaging vel det rette språket for dei fleste lydfiler. Du kan òg velja språket manuelt for å få ein liten forbetring av nøyaktigheita.
Distil-Whisper prosesserer lyd med om lag 48.0x sanntid på grafikkprosessorane våre. Ein 1-timers lydfil er ferdig på under 1 minutt. Lengre filer vert lagt i kø og varsla via e-post når dei er ferdige.
Distil-Whisper har 756M-parametrar. Større modeller har ein tendens til å vera meir nøyaktige, men tregare. STT.ai er vert for Distil-Whisper på GPU-en, så parametertalet påverkar ikkje ytinga på klientsida.
Distil-Whisper godtek alle formata STT.ai støttar — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI og andre. Utdata som TXT, SRT, VTT, DOCX, JSON eller PDF.
Ja. Diarisering av talarar køyrer saman med Distil-Whisper for kvar transkripsjon — kvar talar er merket og du kan endra namnet på dei i redigeringa etterpå.
Ja. Distil-Whisper køyrer i vårt administrerte miljø – lyd blir handsama og sletta som standard og blir aldri brukt til opplæring utan eksplisitt samtykke. Pro-planar legg til klientkryptering for avskriftar i ro.
Bruk verktøyet compare-stt for å køyra Distil-Whisper mot ein annan støtta modell på same lyd. Du vil sjå WER, segmenttal, høgtalarnamn og tiltrupoeng side om side. Samanlikninga Distil-Whisper vs Whisper Large V3 er den mest brukte.
Ja. Oppgje «distil-whisper» som modellparameter på /v1/transcribe-endepunktet. Python- og Node.js-SDK-ar inneheld Distil-Whisper-eksempela. Gratis API-nivå inkluderer 100 minutt/månad.
Ja. Sidan Distil-Whisper er MIT-lisensiert, kan du sjølv vera vert for det. STT.ai sin open kjeldekode-side viser prosjektarkivet og vektene. Dei fleste produksjonsteam brukar vår vertsversjon for å hoppa over GPU-innkjøp, modellbytte og operasjonar.