Transcribe with Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
About Distil-Whisper
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Заримдаа асуудаг асуултууд
Distil-Whisper нь Hugging Face-ийн ярианаас текст болгох загвар юм. STT.ai нь Distil-Whisper-ийг бидний график процессорын дэд бүтцэд байрлуулсан тул та өөрийнхөө тоног төхөөрөмжийг ашиглахгүйгээр ашиглаж болно. Аудио болон видеог татаж авч, загвар сонгогчоос Distil-Whisper-ийг сонгоно уу.
Стандарт үзүүлэлтээр Distil-Whisper нь 5.8% үгийн алдааны түвшинг хангадаг. Үнэн хэрэгтээ энэ нь дууны чанар, өнгө, хэлнээс хамаарна. Хөгжим дуугарч байгаа үед WER-ийг хэд хэдэн хувь нэмэгдүүлэх хэрэгтэй.
Distil-Whisper нь STT.ai-ийн үнэгүй түвшинд ажилладаг - бүх зочид 600 минут/сар үнэгүй авдаг. Үнэтэй төлөвлөгөө нь файл бүрийн урт хязгаар, хувийн бичлэг, болон нэн тэргүүний гүйлгээний жагсаалтыг нэмдэг.
Distil-Whisper нь MIT, нээлттэй эхийн лицензийн дор гарсан. Та Distil-Whisper-ийг өөрийнхөө тоног төхөөрөмж дээр байршуулж эсвэл манай байршуулсан хувилбарыг ашиглаж болно. Хоёулаа худалдааны зориулалттай.
Distil-Whisper нь 99 хэлийг дэмждэг. Автомат олж илрүүлэх нь олон аудиод тохирох хэлийг сонгоно. Та үүнийг гараараа тодорхойлж, бага зэрэг нарийвчлал нэмэгдүүлэх боломжтой.
Distil-Whisper нь бидний GPU дээр 48.0x бодит цагаар аудиог боловсруулдаг. 1 цагийн аудио файл 1 минутын дотор дуусна; урт файлууд дараалалд орж дууссаны дараа имэйлээр мэдэгдэнэ.
Distil-Whisper нь 756M параметртэй. Том загварууд илүү нарийвчлалтай боловч хурд багатай байдаг; STT.ai нь Distil-Whisper-ийг график процессор дээр байрлуулдаг тул параметрийн тоо нь таны клиентийн талд нөлөөлөхгүй.
Distil-Whisper нь STT.ai-ийн дэмждэг бүх форматыг хүлээн авдаг - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, болон бусад. Түүний гаралт нь TXT, SRT, VTT, DOCX, JSON, эсвэл PDF.
Тийм ээ. Бүх бичлэгийн хувьд Distil-Whisper-тай хамт дуут дохионы тэмдэглэгээ хийгддэг. Бүх дуут дохионууд нь тэмдэглэгээтэй бөгөөд редакторт нэрийг нь өөрчилж болно.
Тийм. Distil-Whisper нь бидний удирдсан орчинд ажилладаг — аудио нь урьдчилан боловсруулж устгагдсан бөгөөд тодорхой зөвшөөрөлгүйгээр хэзээ ч сургалтанд ашиглагддаггүй. Pro төлөвлөгөө нь хэвийн үед хадгалагдсан бичлэгийг клиентийн талд шифрлэдэг.
Distil-Whisper-ийг дэмждэг бусад загвартай харьцуулахад compare-stt хэрэгслийг ашиглана уу. Та WER, сегментийн тоо, дуут дохионы тэмдэг, найдвартай байдлын оноог хамтдаа харах болно. Distil-Whisper-ийг Whisper Large V3-тэй харьцуулах нь хамгийн түгээмэл хийгддэг.
Тийм. /v1/transcribe төгсгөлийн цэгт "distil-whisper" загварын параметрийг заана уу. Python болон Node.js SDK-д Distil-Whisper жишээ багтсан. Үнэгүй API түвшин нь сарын 100 минутыг багтаасан.
Тийм ээ. Distil-Whisper нь MIT лицензтэй тул та үүнийг өөрийнхөө сервер дээр байрлуулж болно. STT.ai-ийн нээлттэй эхийн хуудас нь төслийн репозитори болон жингүүдийг жагсаана. Ихэнх үйлдвэрлэлийн багууд бидний хостлагдсан хувилбарыг GPU худалдан авалт, загвар солилцоо, үйл ажиллагааг орхиход ашигладаг.