Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Często zadawane pytania
Vosk jest modelem mowy do tekstu przez Alpha Cephei. STT.ai hosts Vosk na naszej infrastrukturze GPU, dzięki czemu można go wykorzystać bez dostarczania własnego sprzętu – wyślij audio lub wideo i wybierz Vosk z wybieracza modeli.
W odniesieniu do standardowych poziomów odniesienia Vosk osiąga około 12.0% Błędów Word. Dokładność rzeczywistego świata zależy od jakości dźwięku, akcentu i języka; w przypadku głośnych lub akcentowanych nagrań, oczekuje się kilku punktów procentowych wyższych WER.
Vosk biegnie na wolnym poziomie STT.ai – każdy odwiedzający otrzymuje 600 minut/miesiąc bez kosztu. Płacone plany dodają dłużej limity na pliki, prywatne transkrypty i priorytetowe kolejki.
Vosk jest wydane pod Apache 2.0, licencja otwartego źródła. Można samodzielnie gospodarować Vosk na własnym sprzętie lub korzystać z naszej hospodowanej wersji – obie są komercyjne użyteczne.
Vosk obsługuje 20 języków. Automatyczne wykrywanie wybiera właściwy język dla większości audio; można również wskazywać go ręcznie dla małego podnoszenia dokładności.
Vosk procesów audio w około 100.0x w czasie rzeczywistym na naszych GPU. 1-godzinny plik audio zakończy się w mniej niż 8802 minut; dłuższa kolejka plików i powiadomić za pośrednictwem e-maila.
Vosk ma 8802 parametrów. Większe modele są zazwyczaj bardziej dokładne, ale wolniej; STT.ai hostów Vosk w GPU, tak aby liczba parametrów nie wpływała na wydajność klienta.
Vosk akceptuje każdy format obsługi STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI i inne. Wynik jako TXT, SRT, VTT, DOCX, JSON lub PDF.
Tak. Dializacja głośnika biegnie obok Vosk dla każdej transkrypcji — każdy głośnik jest oznaczony i można je później zmienić w edytorze.
Tak. Vosk uruchamia w naszym zarządzanym środowisku – audio jest przetwarzany i usuwany domyślnie i nigdy nie używany do szkolenia bez wyraźnego opt-in. Pro plany dodają klient-side szyfrowanie do transkrypcji w pokoju.
Użyj narzędzia porównania-stt, aby uruchomić Vosk w stosunku do jakiegokolwiek innego modelu obsługiwanego w tym samym audio – zobaczysz WER, liczbę segmentów, etykiety głośnika i wyniki ufności po stronie. Porównanie Vosk ws Whisper Large V3 jest najczęściej uruchomione.
Tak. Określić "vosk" jako parametr modelu w końcowym punktie końcowym /v1/transcribe. Python i Node.js SDKs zawierają Vosk przykładów. Darmowy poziom API obejmuje 100 minut/miesiąc.
Tak. Ponieważ Vosk jest 8802-licenzowany, możesz go sam-host. STT.ai stron otwartego źródła wykazuje repo i wagi projektu. Większość zespołów produkcyjnych korzysta z naszej hosted wersji, aby pominąć zamówienia GPU, modele swaps i ops.