Transcribe with Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
About Distil-Whisper
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Часта задаваемыя пытанні
Distil-Whisper - гэта мадэль пераўтварэння мовы ў тэкст ад Hugging Face. STT.ai размяшчае Distil-Whisper на нашай інфраструктуры GPU, таму вы можаце выкарыстоўваць яго без стварэння свайго апаратнага забеспячэння - загрузіце аўдыё або відэа і выберыце Distil-Whisper з выбару мадэлі.
На стандартных тэставанні, Distil-Whisper дасягае каля 5.8% Word Error Rate. Рэальная дакладнасць залежыць ад якасці гуку, акцэнту і мовы; для шумных або акцэнтаваных запісаў чакайце на некалькі працэнтных пунктаў вышэй WER.
Distil-Whisper працуе на бясплатным узроўні STT.ai — кожны наведвальнік атрымлівае 600 хвілін / месяц бясплатна. Плацежныя планы дадаюць большыя абмежаванні на файл, прыватныя транскрыпты і прыярытэтнае чаканне.
Distil-Whisper выпушчаны пад ліцэнзіяй MIT, дазваляе адкрыты код. Вы можаце самастойна ўсталяваць Distil-Whisper на вашым камп' ютары або выкарыстоўваць нашу версію - абодва могуць быць выкарыстаны ў камерцыйных мэтах.
Distil-Whisper падтрымлівае 99 моў. Аўтаматычнае выяўленне выбірае правільную мову для большасці гукаў; вы таксама можаце вызначыць яе ўручную для невялікага павышэння дакладнасці.
Distil-Whisper апрацоўвае аўдыё з хуткасцю 48.0x у рэальным часе на нашых GPU. 1- гадзінны аўдыё файл скончыцца менш чым за 1 хвіліны; даўжэйшыя файлы будуць адпраўляцца ў чаргу і абвяшчаць па электроннай пошце, калі яны будуць завершаны.
Distil-Whisper мае параметры 756M. Большыя мадэлі больш дакладныя, але павольнейшыя; STT.ai мае Distil-Whisper на GPU, таму колькасць параметраў не ўплывае на хуткасць працы кліента.
Distil-Whisper прымае ўсе фарматы, якія падтрымлівае STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI і іншыя. Вывад у фармаце TXT, SRT, VTT, DOCX, JSON або PDF.
Так. Дыярызацыя гукавых файлаў працуе разам з Distil-Whisper для кожнай транскрыпцыі - кожны гукавы файл мае этыкетку, і вы можаце змяніць яго назву ў рэдактара пасля.
Так. Distil-Whisper працуе ў нашым кіруемым асяроддзі - гук апрацоўваецца і выдаляецца па змаўчанні і ніколі не выкарыстоўваецца для трэніровак без выразнага дазволу. Планы Pro дадаюць шыфраванне з боку кліента для транскрыптаў у спакоі.
Выкарыстоўвайце інструмент compare-stt, каб правесці параўнанне Distil-Whisper з любым іншым падтрымліваемым мадэллю на тым жа аўдыё - вы ўбачыце WER, колькасць сегментаў, этыкеткі дынамікаў і рэйтынгі даверу бок аб бок. Параўнанне Distil-Whisper супраць Whisper Large V3 - гэта найбольш частае параўнанне.
Так. Вызначце "distil-whisper" як параметр мадэлі ў канечнай кропцы /v1/transcribe. Python і Node.js SDK ўключаюць прыклады Distil-Whisper. Бясплатны ўзровень API ўключае 100 хвілін / месяц.
Так. Паколькі Distil-Whisper мае ліцэнзію MIT, вы можаце самастойна яго ўсталяваць. На старонцы адкрытага кода STT.ai паказаны рэпазітары і вагі праекту. Большасць каманд выкарыстаюць нашу ўсталяваную версію, каб прапусціць закупку GPU, абмен мадэлямі і аперацыі.