Транскрибировать с Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
О модели Vosk
Vosk is an offline speech recognition toolkit that works without an internet connection. It supports 20+ languages with compact models that can run on mobile devices, Raspberry Pi, and any platform. Built on Kaldi and Zipformer architectures.
Поддерживаемые языки Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Часто задаваемые вопросы
Vosk — это речевая модель на Alpha Cephei. STT.ai носит Vosk на нашей инфраструктуре GPU, так что вы можете использовать ее без обеспечения собственного оборудования — загружать аудио- или видео и выбирать Vosk из сборщика модели.
При стандартных контрольных параметрах Vosk достигает примерно 12.0% скорости ошибок в Word. Точность в реальном мире зависит от качества звука, акцента и языка; для шумных или заостренных записей ожидается, что на несколько процентных пунктов выше WER.
Vosk работает на бесплатном уровне STT.ai — каждый посетитель получает 600 минут в месяц бесплатно.
Vosk выпущено на Apache 2.0 год, разрешительная лицензия с открытым исходным кодом. Вы можете самостоятельно принять Vosk на вашем собственном оборудовании или использовать нашу приёмную версию — оба они могут быть использованы на коммерческой основе.
Vosk поддерживает 20 язык. Автообнаружение выбирает правильный язык для большинства звуков; вы также можете указать его вручную для небольшого лифта с точностью.
Vosk обрабатывает аудио примерно 100.0x в режиме реального времени на наших GPU. 1-часовой аудио файл заканчивается меньше чем за 1 минуты; более длинный список файлов и уведомление по электронной почте, когда он будет сделан.
Vosk имеет параметры 50M. Большие модели, как правило, более точны, но медленнее; STT.ai носит Vosk на GPU, так что число параметров не влияет на производительность вашего клиента.
Vosk принимает каждый формат STT.ai поддержки — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI и другие.
Да, диааризация спикера проводится вместе с Vosk за каждую транскрипцию — каждый оратор помечен ярлыком, и после этого вы можете переименовать их в редактора.
Да. Vosk прогонов в нашей регулируемой среде — аудио обрабатывается и удаляется по умолчанию и никогда не используется для обучения без прямого выбора. Про-планы добавляют шифрование клиентом для расшифровки стенограмм.
Используйте инструмент для сравнения с Vosk против любой другой поддерживаемой модели на одном и том же аудио — вы увидите WER, число сегментов, ярлыки громкостей и оценки достоверности одновременно. Сопоставление Vosk vs Whisper Крупный V3 — наиболее частое сравнение.
Да. Указать "vosk" в качестве параметра модели на конечных точках /v1/tranarip. Python и Node.js SDKs включают Vosk примеры. Свободный API уровень включает 100 минут в месяц.
Да, так как Vosk имеет Apache 2.0-лицензию, вы можете самостоятельно завести его. На странице с открытым исходным кодом STT.ai перечисляются репо и весы проекта. Большинство производственных команд используют нашу хост-версия, чтобы пропустить закупки GPU, свопы моделей и операции.