Докладване на грешка / заявка за функция

Транкриптиране с Vosk

Name: Vosk
Author: Alpha Cephei

Работи с публично достъпни аудио & видео. DRM защитено съдържание не е подкрепено.

Повишаване за подобрени

Частно преписване

Разговор с транскрипт

Отключване с профсъюз →

Пропускане на файла тук или кликнете за да прегледате

MP3, WAV, M4A, FLAC, MP4, MKV, Движение, WebM — до 2GB

Изпращане на няколко файлове с професионален

Повишаване за подобрени

Частно преписване

Разговор с транскрипт

Отключване с профсъюз →

Повишаване за подобрени

Речта в реално време към текст. AI автоматично корекции, докато говорите – точността се подобрява с по-дълга реч.

Тествайте микрофона си първо

10 безплатни мин/ден 600 мин безплатно с регистрация Без кредитна карта Шифрирано

Запишете се безплатно. →

12.0%

WER

Езици

100.0x

Скорост

Apache 2.0

Лиценз

За Vosk

Воск е офлайн инструмент за разпознаване на речта, който работи без интернет връзка. Тя поддържа 20+ езици с компактни модели, които могат да работят на мобилни устройства, Raspberry Pi и всяка платформа. Изграден на Kaldi и Zipformer архитектури.

Езици, подкрепени от Vosk

Английски

Испански

Френски

Немски

Китайски

Японски

Корейски

Португалски

Арабски

Хинди

Руски

Италиански

Нидерландски

Турски

Полски

Шведски

Индонезийски

Виетнамски

Чешки

Гръцки

Информация за модела

ДоставчикAlpha Cephei
Архитектура-
ЛицензApache 2.0
ОбновеноMar 2026

Съответни модели

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Често задавани въпроси

Vosk е модел от реч към текст от Alpha Cephei. STT.ai домакини Vosk на нашата GPU инфраструктура, така че можете да го използвате, без да предоставяте своя собствен хардуер — качване на аудио или видео и изберете Vosk от модела избирач.

По стандартни бенчмаркове Vosk достига около 12.0% Word Error Rate. Real-world точност зависи от качеството на звука, акцента и езика; за шумни или акцентирани записи, очакват няколко процентни пункта по-висока WER.

Vosk работи на безплатен ступен на STT.ai – всеки посетител получава 600 минути да започне без цена. Платените планове добавят повече на файлови ограничения, частни записи и приоритетни редовни редове.

Vosk е освободен под Apache 2.0, допустим лиценз за отворен източник. Можете да се самоприемате Vosk на своя собствен хардуер или да използвате нашата хостинг версия - и двете са търговски приложими.

Vosk поддържа 20 езика. Автоматично откриване избира правилния език за повечето аудио; можете да го ръчно посочите и за малък асансьор за точност.

Vosk процеси аудио на около 100.0x в реално време на нашите GPU. 1-часов аудио файл завършва в под 8802 минути; по-дълги файлове редица и уведомяване по имейл, когато се направи.

Vosk има 8802 параметри. По-големите модели са по-точни, но по-бавни; STT.ai домакини Vosk на GPU, така че броят на параметрите не влияе на производителността на вашия клиент.

Vosk приема всеки формат STT.ai поддръжки — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI и др. Изход като TXT, SRT, VTT, DOCX, JSON или PDF.

Да. Диагностикацията на спикера се движи до Vosk за всяка транскрипция — всеки говорител е етикетиран и можете да ги преименувате в редактора след това.

Да. Vosk ходове в нашата управлявана среда — аудио се обработва и изтрива по подразбиране и никога не се използва за обучение без изрично оптимизиране. Про планове добавят клиент-страна шифриране за транскрипти в почивка.

Използвайте инструмента за сравнение, за да стартирате Vosk срещу всеки друг подкрепен модел на един и същ звук – ще видите WER, сегмент брой, говорител етикети и доверителни резултати странично дострани. Vosk спрямо Whisper Large V3 сравнението е най-често извършено.

Да. Определяте "vosk" като параметр за модела на точката /v1/transcribe. Python и Node.js SDKs включват Vosk примери. Free API низ включва 100 минути/месечно.

Да. Тъй като Vosk е 8802-лицензиран, можете да го самостоятелно домакин. STT.ai на отворения източник страница изброява репо и тежести на проекта. Повечето производствени екипи използват нашата хостинг версия, за да пропуснат GPU поръчки, смяна на модели и операции.

Транкриптиране с Vosk

За Vosk

Езици, подкрепени от Vosk

Информация за модела

Съответни модели

Често задавани въпроси

Колко е Vosk?

Колко точно е Vosk?

Vosk свободни ли са за ползване?

Какъв лиценз използва Vosk?

Колко езици подкрепя Vosk?

Колко бързо е Vosk?

Колко голям е моделът Vosk?

Какви аудио формати могат да се записват Vosk?

Vosk разпознава ли няколко говорители?

Частни ли са данните ми при използването на Vosk?

Как се сравнява Vosk с други модели STT?

Мога ли да използвам Vosk чрез API?

Мога ли да пусна Vosk на моя сървър?