Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Често задавани въпроси
Vosk е модел от реч към текст от Alpha Cephei. STT.ai домакини Vosk на нашата GPU инфраструктура, така че можете да го използвате, без да предоставяте своя собствен хардуер — качване на аудио или видео и изберете Vosk от модела избирач.
По стандартни бенчмаркове Vosk достига около 12.0% Word Error Rate. Real-world точност зависи от качеството на звука, акцента и езика; за шумни или акцентирани записи, очакват няколко процентни пункта по-висока WER.
Vosk тече на безплатен ниво на STT.ai — всеки посетител получава 600 минути/месечно без цена. Платените планове добавят повече лимита за файл, частни транскрипти и приоритетни редици.
Vosk е освободен под Apache 2.0, допустим лиценз за отворен източник. Можете да се самоприемате Vosk на своя собствен хардуер или да използвате нашата хостинг версия - и двете са търговски приложими.
Vosk поддържа 20 езика. Автоматично откриване избира правилния език за повечето аудио; можете да го ръчно посочите и за малък асансьор за точност.
Vosk процеси аудио на около 100.0x в реално време на нашите GPU. 1-часов аудио файл завършва в под 8802 минути; по-дълги файлове редица и уведомяване по имейл, когато се направи.
Vosk има 8802 параметри. По-големите модели са по-точни, но по-бавни; STT.ai домакини Vosk на GPU, така че броят на параметрите не влияе на производителността на вашия клиент.
Vosk приема всеки формат STT.ai поддръжки — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI и др. Изход като TXT, SRT, VTT, DOCX, JSON или PDF.
Да. Диагностикацията на спикера се движи до Vosk за всяка транскрипция — всеки говорител е етикетиран и можете да ги преименувате в редактора след това.
Да. Vosk ходове в нашата управлявана среда — аудио се обработва и изтрива по подразбиране и никога не се използва за обучение без изрично оптимизиране. Про планове добавят клиент-страна шифриране за транскрипти в почивка.
Използвайте инструмента за сравнение, за да стартирате Vosk срещу всеки друг подкрепен модел на един и същ звук – ще видите WER, сегмент брой, говорител етикети и доверителни резултати странично дострани. Vosk спрямо Whisper Large V3 сравнението е най-често извършено.
Да. Определяте "vosk" като параметр за модела на точката /v1/transcribe. Python и Node.js SDKs включват Vosk примери. Free API низ включва 100 минути/месечно.
Да. Тъй като Vosk е 8802-лицензиран, можете да го самостоятелно домакин. STT.ai на отворения източник страница изброява репо и тежести на проекта. Повечето производствени екипи използват нашата хостинг версия, за да пропуснат GPU поръчки, смяна на модели и операции.