Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Заримдаа асуудаг асуултууд
Vosk нь Alpha Cephei-ийн ярианаас текст болгох загвар юм. STT.ai нь Vosk-ийг бидний график процессорын дэд бүтцэд байрлуулсан тул та өөрийнхөө тоног төхөөрөмжийг ашиглахгүйгээр ашиглаж болно. Аудио болон видеог татаж авч, загвар сонгогчоос Vosk-ийг сонгоно уу.
Стандарт үзүүлэлтээр Vosk нь 12.0% үгийн алдааны түвшинг хангадаг. Үнэн хэрэгтээ энэ нь дууны чанар, өнгө, хэлнээс хамаарна. Хөгжим дуугарч байгаа үед WER-ийг хэд хэдэн хувь нэмэгдүүлэх хэрэгтэй.
Vosk нь STT.ai-ийн үнэгүй түвшинд ажилладаг - бүх зочид 600 минут/сар үнэгүй авдаг. Үнэтэй төлөвлөгөө нь файл бүрийн урт хязгаар, хувийн бичлэг, болон нэн тэргүүний гүйлгээний жагсаалтыг нэмдэг.
Vosk нь Apache 2.0, нээлттэй эхийн лицензийн дор гарсан. Та Vosk-ийг өөрийнхөө тоног төхөөрөмж дээр байршуулж эсвэл манай байршуулсан хувилбарыг ашиглаж болно. Хоёулаа худалдааны зориулалттай.
Vosk нь 20 хэлийг дэмждэг. Автомат олж илрүүлэх нь олон аудиод тохирох хэлийг сонгоно. Та үүнийг гараараа тодорхойлж, бага зэрэг нарийвчлал нэмэгдүүлэх боломжтой.
Vosk нь бидний GPU дээр 100.0x бодит цагаар аудиог боловсруулдаг. 1 цагийн аудио файл 1 минутын дотор дуусна; урт файлууд дараалалд орж дууссаны дараа имэйлээр мэдэгдэнэ.
Vosk нь 50M параметртэй. Том загварууд илүү нарийвчлалтай боловч хурд багатай байдаг; STT.ai нь Vosk-ийг график процессор дээр байрлуулдаг тул параметрийн тоо нь таны клиентийн талд нөлөөлөхгүй.
Vosk нь STT.ai-ийн дэмждэг бүх форматыг хүлээн авдаг - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, болон бусад. Түүний гаралт нь TXT, SRT, VTT, DOCX, JSON, эсвэл PDF.
Тийм ээ. Бүх бичлэгийн хувьд Vosk-тай хамт дуут дохионы тэмдэглэгээ хийгддэг. Бүх дуут дохионууд нь тэмдэглэгээтэй бөгөөд редакторт нэрийг нь өөрчилж болно.
Тийм. Vosk нь бидний удирдсан орчинд ажилладаг — аудио нь урьдчилан боловсруулж устгагдсан бөгөөд тодорхой зөвшөөрөлгүйгээр хэзээ ч сургалтанд ашиглагддаггүй. Pro төлөвлөгөө нь хэвийн үед хадгалагдсан бичлэгийг клиентийн талд шифрлэдэг.
Vosk-ийг дэмждэг бусад загвартай харьцуулахад compare-stt хэрэгслийг ашиглана уу. Та WER, сегментийн тоо, дуут дохионы тэмдэг, найдвартай байдлын оноог хамтдаа харах болно. Vosk-ийг Whisper Large V3-тэй харьцуулах нь хамгийн түгээмэл хийгддэг.
Тийм. /v1/transcribe төгсгөлийн цэгт "vosk" загварын параметрийг заана уу. Python болон Node.js SDK-д Vosk жишээ багтсан. Үнэгүй API түвшин нь сарын 100 минутыг багтаасан.
Тийм ээ. Vosk нь Apache 2.0 лицензтэй тул та үүнийг өөрийнхөө сервер дээр байрлуулж болно. STT.ai-ийн нээлттэй эхийн хуудас нь төслийн репозитори болон жингүүдийг жагсаана. Ихэнх үйлдвэрлэлийн багууд бидний хостлагдсан хувилбарыг GPU худалдан авалт, загвар солилцоо, үйл ажиллагааг орхиход ашигладаг.