Transcribe with Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
About Distil-Whisper
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Dažnai užduodami klausimai
Distil-Whisper yra kalbos-teksto modelis iki Hugging Face. STT.ai savo GPU infrastruktūroje sumontuoti Distil-Whisper, todėl jį galite naudoti neįrengdami savo techninės įrangos – įkelkite garso ar vaizdo ir pasirinkite Distil-Whisper iš modelio parinkiklis.
Dėl standartinių lyginamųjų standartų, Distil-Whisper pasiekia apie 8801% Word error Rate. Realaus pasaulio tikslumas priklauso nuo garso kokybės, akcentas, ir kalba; Triukšmingų ar akcentuotų įrašų, tikėtis keletą procentinių punktų didesnis WER.
Distil-Whisper veikia STT.ai laisvos pakopos - kiekvienas lankytojas gauna 600 minučių/mėnesį be jokių išlaidų. Mokami planai pridėti daugiau už failą ribų, privačių stenogramų, ir prioritetų eilė.
Distil-Whisper yra išleistas pagal MIT, leistina atviro kodo licencija. Galite savarankiškai-host Distil-Whisper ant savo aparatūros arba naudoti mūsų palaikomą versiją - abu yra komerciškai naudoti.
Distil-Whisper palaiko 99 kalbas. Automatinis aptikimas pasirenka reikiamą kalbą daugumai garso; taip pat galite nurodyti ją rankiniu būdu nedideliam tikslumui pakelti.
Distil-Whisper apdoroja garsą maždaug 48.0x realiu laiku mūsų GPU. 1 valandos garso failas baigiasi po 1 minučių; ilgesnis failų eilė ir apie tai praneš el. paštu, kai tai bus padaryta.
Distil-Whisper turi 756M parametrus. Didesni modeliai yra tikslesni, bet lėčiau; STT.ai GPU mazgai Distil-Whisper, todėl parametrų skaičius neturi įtakos Jūsų klientų veiklos rezultatams.
Distil-Whisper priima kiekvieną formatą STT.ai palaiko: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI ir kt. Išvesti kaip TXT, SRT, VTT, DOCX, JSON, arba PDF.
Taip. Garsiakalbio diarizacija veikia šalia Distil-Whisper kiekvienam transkripcija – kiekvienas garsiakalbis yra pažymėtas ir galite pervadinti juos redaktoriuje po to.
Taip. Distil-Whisper veikia mūsų valdomoje aplinkoje — garso yra apdorojamas ir ištrinamas pagal nutylėjimą ir niekada naudojamas mokymui be aiškaus opt-in. Pro planai pridėti kliento pusėje šifravimo stenogramos poilsio.
Naudokite palyginimo-stt įrankis paleisti Distil-Whisper prieš bet kurį kitą palaikomą modelį tame pačiame garso — pamatysite WER, segmentų skaičių, garsiakalbių etiketes ir pasitikėjimo balus šalia-by-by. Distil-Whisper palyginti Whisper didelis V3 yra dažniausiai paleisti.
Taip. Nurodykite "distil-whisper" kaip modelio parametrą /v1/tractor parametrą. Python ir Node.js SDK yra Distil-Whisper pavyzdžiai. Nemokama API pakopa apima 100 minučių/mėnesį.
Taip. Kadangi Distil-Whisper yra MIT-licencijuotas, galite patys-host jį. STT.ai atviro kodo puslapis išvardija projekto atpirkimo ir svorius. Dauguma gamybos komandos naudoja mūsų įdiegtą versiją praleisti GPU pirkimų, modelių apsikeitimo, ir ops.