Transcribe with Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
About Distil-Whisper
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Pyetje të shpeshta
Distil-Whisper është një model i fjalës në tekst nga Hugging Face. STT.ai mban Distil-Whisper në infrastrukturën tonë të GPU kështu që mund ta përdorni pa furnizuar hardware-in tuaj — ngarkoni audion ose videon dhe zgjidhni Distil-Whisper nga zgjedhësi i modelit.
Në standartet e vlerësimit, Distil-Whisper arrin rreth 5.8% të normave të gabimeve të fjalëve. Saktësia në botën reale varet nga cilësia e audios, theksi dhe gjuha; për regjistrime me zhurmë ose theks, prit disa përqindje më të larta WER.
Distil-Whisper punon në nivelin e lirë të STT.ai — çdo vizitor merr 600 minuta në muaj pa kosto. Planet e paguar shtojnë kufizime më të gjata për file, transkripta private dhe renditje në radhë me përparësi.
Distil-Whisper është lëshuar nën MIT, një licencë e hapur e hapur. Mund të vetë-hostoni Distil-Whisper në hardware-in tuaj ose të përdorni versionin tonë të pritur — të dy janë komercialisht të përdorshëm.
Distil-Whisper suporton 99 gjuhë. Zbulimi automatik zgjedh gjuhën e duhur për shumicën e audiove; mund ta specifikoni gjithashtu manualisht për një rritje të vogël të saktësisë.
Distil-Whisper përpunon audion në rreth 48.0x në kohë reale në GPU-të tona. Një file audio 1 orë përfundon në më pak se 1 minuta; file më të gjatë vënë në radhë dhe njoftohen me email kur përfundojnë.
Distil-Whisper ka parametrat 756M. Modelet më të mëdha priren të jenë më të sakta por më të ngadalshme; STT.ai hosts Distil-Whisper në GPU kështu që numërimi i parametrave nuk ndikon në performancën e anës së klientit.
Distil-Whisper pranon çdo format që suporton STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, dhe të tjerë. Shfaq si TXT, SRT, VTT, DOCX, JSON, ose PDF.
Po. Diarization e folësit punon së bashku me Distil-Whisper për çdo transkriptim - çdo folës është i etiketuar dhe mund t'i riemërtoni ata në editor më pas.
Po. Distil-Whisper punon në mjedisin tonë të menazhuar — audiot përpunohen dhe eleminohen në mënyrë të prezgjedhur dhe nuk përdoren kurrë për trainim pa opsion të hapur. Planet Pro shtojnë kriptimin në anën e klientit për transkriptat në pushim.
Përdor instrumentin compare-stt për të ekzekutuar Distil-Whisper kundër çdo modeli tjetër të suportuar në të njëjtin audio — do të shihni WER, numrin e segmenteve, etiketat e folësve dhe rezultatet e besimit krah-për-krah. Krahasimi Distil-Whisper vs Whisper Large V3 është më i zakonshmi.
Po. Specifiko "distil-whisper" si parametri i modelit në /v1/transcribe endpoint. Python dhe Node.js SDK përfshijnë shembuj Distil-Whisper. Niveli i API pa pagesë përfshin 100 minuta në muaj.
Po. Sepse Distil-Whisper është i licencuar MIT, mund ta hostosh vetë. Faqja e burimit të hapur të STT.ai-ës përmban listën e projektit dhe peshat. Shumica e ekipeve të prodhimit përdorin versionin tonë të pritur për të kaluar GPU-në, modelin e shkëmbimit dhe operacionet.