转录 Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
关于 Distil-Whisper
Distil-Whisper is a distilled version of Whisper created by Hugging Face. It reduces the model size by 49% and achieves 6x faster inference while maintaining within 1% WER of the original Whisper Large V2 on out-of-distribution evaluation sets.
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
常见问题
Distil-Whisper是Hugging Face.STT.ai主机Distil-Whisper在我们的GPU基础设施上的语音对文本模型,这样你就可以在不提供硬件的情况下使用它——上传音频或视频,并从模型采集器中提取Distil-Whisper。
根据标准基准,Distil-Whisper人达到约5.8%的字错误率。 现实世界的准确性取决于音质、口音和语言;对于吵闹或口音录音,预期WER会高出几个百分点。
Distil-Whisper在STT.ai免费层运行——每个访客每个月可免费获得600分钟,付费计划增加了每个文件的篇幅、私人笔录和优先排队。
Distil-Whisper根据MIT号许可开放源码许可证发放。您可以通过自己的硬件自行托管Distil-Whisper,或者使用我们的托管版本,这两种版本都可以在商业上使用。
Distil-Whisper 支持 99 种语言。自动检测为大多数音频选择正确的语言;您也可以手动指定小精度升降。
Distil-Whisper 处理我们GPUs上大约48.0x的实时音频。 1小时的音频文件在1分钟内完成; 较长的文件排队, 完成后通过电子邮件通知 。
Distil-Whisper 具有 756M 参数。 大模型往往更准确,但更慢; STT.ai 主机在 GPU Distil-Whisper GPU 上, 所以参数计数不会影响您的客户端性能 。
Distil-Whisper 接受每种格式的 STT.ai 支持 - MP3、 WAV、 M4A、 FLAC、 OGG、 MP4、 MKV、 MOV、 WebM、 AVI 等。 输出为 TXT、 SRT、 VTT、 DOCX、 JSON 或 PDF 。
是的,议长对音响的对称与每部抄录的88 000次相加——每个发言者都贴上标签,然后可以在编辑中重新命名。
有88 000次运行在我们的管理环境中——音频被默认地处理和删除,在没有明确选择使用的情况下从不用于培训。
使用对比工具运行 Distil-Whisper 相对于同一音频上的其他支持模式, 您可以看到 WER 、 区段计数、 扬声标签和信任度, 并肩得分 。 最常用的比对是 Distil-Whisper vs Whiseper large V3 比较 。
是, 请指定“ distil-whisper” 为 / v1/ trancant 端点上的模型参数。 Python 和 Node.js SDKs 包括 Distil-Whisper 个示例。 免费 API 级包括 100 分钟/ 月 。
是的,因为Distil-Whisper有MIT的许可证,你可以自行托管它。STT.ai的开放源码页面列出了项目回购和重量。大多数生产团队使用我们的主机版本来跳过GPU采购、模型互换和操作。