Transcribe with Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
About Distil-Whisper
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Cwestiynau a Ofynnir yn Aml
Model siarad-i-testun gan Hugging Face yw Distil-Whisper. Mae STT.ai yn gwestiwn Distil-Whisper ar ein strwythur GPU felly gallwch ei ddefnyddio heb ddarparu eich caledwedd eich hun - lawrlwythwch sain neu fideo a dewiswch Distil-Whisper o'r dewisydd model.
Ar fesurau safonol, mae Distil-Whisper yn cyrraedd Cyfradd Gwallau Geiriau o tua 5.8%. Mae cywirdeb yn y byd go iawn yn dibynnu ar ansawdd sain, sain a iaith; ar gyfer recordiadau swnllyd neu sainedig, disgwyliwch ychydig o bwyntiau canran uwch WER.
Mae Distil-Whisper yn rhedeg ar lefel rhad ac am ddim STT.ai — mae pob ymwelydd yn cael 600 munud/mis am ddim. Mae cynlluniau talu yn ychwanegu terfynau mwy hir ar gyfer pob ffeil, trosysgrifau preifat, a rhedeg mewn rhes flaenoriaeth.
Cyhoeddir Distil-Whisper o dan MIT, trwydded ffynhonnell agored ganiataol. Gallwch hunan-gartrefu Distil-Whisper ar eich caledwedd eich hun neu ddefnyddio ein fersiwn cartrefiedig — mae'r ddau yn defnyddiol yn fasnachol.
Cynhelir Distil-Whisper iaith 99. Mae darganfod yn awtomatig yn dewis yr iaith gywir ar gyfer y rhan fwyaf o sain; gallwch hefyd ei benodi â llaw er mwyn gwella cywirdeb ychydig.
Mae Distil-Whisper yn prosesu sain ar tua 48.0x amser real ar ein GPUs. Mae ffeil sain 1 awr yn gorffen mewn llai na 1 munud; mae ffeiliau hirach yn rhedeg yn y rhes a chaiff eu hysbysu drwy e-bost pan fyddant wedi gorffen.
Mae gan Distil-Whisper baramedrau 756M. Mae modelau mwy yn tueddu i fod yn fwy cywir ond yn araf; mae STT.ai yn gwestiwn Distil-Whisper ar y GPU felly nid yw'r cyfrif paramedrau yn effeithio ar eich perfformiad ochr y cleient.
Mae Distil-Whisper yn derbyn pob fformat a gynhelir gan STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, ac eraill. Allbwn fel TXT, SRT, VTT, DOCX, JSON, neu PDF.
Ie. Rheda diareiddio siaradwyr gyda Distil-Whisper ar gyfer pob trosysgrifiad - mae pob siaradwr yn cael ei labelu a gallwch eu hail-enwi yn y golygydd yna.
Ydy. Mae Distil-Whisper yn rhedeg yn ein hamgylchedd rheoli — mae sain yn cael ei brosesu a'i ddileu yn rhagosodedig ac ni chaiff ei ddefnyddio erioed ar gyfer hyfforddiant heb optio i mewn yn glir. Mae cynlluniau Pro yn ychwanegu amgryptio ochr y cleient ar gyfer trosysgrifau wrth aros.
Defnyddiwch yr erfyn compare-stt i redeg Distil-Whisper yn erbyn unrhyw ddull arall a gynhelir ar yr un sain — byddwch yn gweld WER, cyfrif segmentau, labeli siaradwyr, a sgôr ymddiriedaeth ochr yn ochr. Y cymhariaeth Distil-Whisper vs Whisper Large V3 yw'r un fwyaf cyffredin.
Ie. Penodi "distil-whisper" fel paramedr model ar y /v1/transcribe diwedd-bwynt. Mae Python a Node.js SDKs yn cynnwys enghreifftiau Distil-Whisper. Mae lefel API am ddim yn cynnwys 100 munud/mis.
Ie. Gan fod Distil-Whisper yn cael ei drwyddedu gan MIT, gallwch ei hunan-gartrefu. Mae tudalen ffynhonnell agored STT.ai yn rhestru'r storfa a'r pwysau. Mae'r rhan fwyaf o'r timau cynhyrchu yn defnyddio ein fersiwn cartrefi i hepgor prynu GPU, cyfnewid modelau, ac ops.