Transcribe with Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
About Distil-Whisper
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Àwọn Àtòjọ-ẹ̀yàn
Distil-Whisper ní móòdù ìṣàfihàn-si-àkọ́kọ́ láti Hugging Face. STT.ai ní àwọn awáròyìn Distil-Whisper nípa àgbègbè GPU wà láti jẹ́ pé o lè lò láti fi àwọn àwọn ìṣàfihàn rẹ̀ pamọ́ - fi àwòrán àti àwòrán pamọ́ sínú àwọn awáròyìn Distil-Whisper láti inú àwọn àwọn awáròyìn móòdù.
On standard benchmarks, Distil-Whisper achieves around 5.8% Word Error Rate. Real-world accuracy depends on audio quality, accent, and language; for noisy or accented recordings, expect a few percentage points higher WER.
Distil-Whisper nlọ lori STT.ai ti o ni ọfẹ — gbogbo awọn alejo gba iṣẹju 600/oṣu kan laisi idiyele. Awọn iṣẹju-aaya ti a sanwo ṣafikun awọn ibiti o ju-faili, awọn atẹwe ti ara ẹni, ati awọn atẹwe ti o ni ifẹ.
Distil-Whisper tí a fi pamọ́ láti inú MIT, ìlàyè ìṣàfilọ́lẹ̀-ìṣílọ́lẹ̀. O lè fi Distil-Whisper pamọ́ sípàrà rẹ̀ láti lò nínú àwọn ìṣàfilọ́lẹ̀ wà - gbogbo wọn ní a lè lò nínú iṣẹ́.
Distil-Whisper ǹfà àwọn ìtàn 99. Àwọn ìṣàfihàn-ìdáràn àwọn ìtàn tí a fẹ́ fún àwọn ìṣàfihàn àwọn ìranlọwọ; o lè sọ̀rọ̀ nípa ìrànwọ́ fún ìṣàfihàn àwọn ìṣàfihàn àwọn ìṣàfihàn.
Distil-Whisper processes audio at about 48.0x real-time on our GPUs. A 1-hour audio file finishes in under 1 minutes; longer files queue and notify by email when done.
Distil-Whisper has 756M parameters. Larger models tend to be more accurate but slower; STT.ai hosts Distil-Whisper on GPU so the parameter count doesn't affect your client-side performance.
Distil-Whisper gba gbogbo àwọn ìrísí-lẹ́tà tí STT.ai ǹfàyè — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, àti àwọn mìíràn. Àwọn ìṣàfilọ́lẹ̀ bí TXT, SRT, VTT, DOCX, JSON, tàbí PDF.
Ya. Ìṣàfilọ́lẹ̀ àwọn àkọlé àwọn àkọlé náà tí wọ́n lọ́wọ́lọ́wọ́ Distil-Whisper fún ìṣàfilọ́lẹ̀ gbogbó - àwọn àkọlé àwòrán ní pàtó àwọn àkọlé àwòrán náà nínú àwọn àwọn àkọlé àwòrán.
Yes. Distil-Whisper runs in our managed environment — audio is processed and deleted by default and never used for training without explicit opt-in. Pro plans add client-side encryption for transcripts at rest.
Use the compare-stt tool to run Distil-Whisper against any other supported model on the same audio — you'll see WER, segment count, speaker labels, and confidence scores side-by-side. The Distil-Whisper vs Whisper Large V3 comparison is the most commonly run.
Ya. Ṣàfihàn "distil-whisper" bí àwọn ààtò ìṣàmúlò-ètò módè́èlì lórí àwọn ààtò ìparí iṣẹ́ /v1/transscribe. Python àti Node.js SDKs ní àwọn ààtò ìṣàmúlò-ètò Distil-Whisper. Àwọn ààtò API àìfẹ́ ní àwọn ààtò 100 àwọn àkókò/óṣù.
Yes. Because Distil-Whisper is MIT-licensed, you can self-host it. STT.ai's open-source page lists the project repo and weights. Most production teams use our hosted version to skip GPU procurement, model swaps, and ops.