Zgłosić błąd / żądanie funkcji

Transcribe z Vosk

Name: Vosk
Author: Alpha Cephei

Pracuje z publicznie dostępnym audio & wideo. Zawartość zabezpieczona DRM nie jest obsługiwana.

Aktualizacja dla poprawy

Prywatny transkrypt

Rozmowa z transkrypcją

Odblokuj za pomocą Pro →

Przepuść plik tutaj lub kliknij aby przeglądać

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — do 2GB

Pakietowe wysyłanie plików wielokrotnych z Pro

Aktualizacja dla poprawy

Prywatny transkrypt

Rozmowa z transkrypcją

Odblokuj za pomocą Pro →

Aktualizacja dla poprawy

Przemówienie w czasie rzeczywistym do tekstu. AI automatycznie poprawia się w momencie, gdy mówisz – dokładność poprawia się przy dłuższej mowie.

Najpierw sprawdź mikrofon

10 bezpłatnych min/dzień 600 minut bezpłatnie z rejestracją Brak karty kredytowej Zaszyfrowane

Zarejestruj się za darmo →

12.0%

WER

Języki

100.0x

Prędkość

Apache 2.0

Licencja

O tematie Vosk

Vosk to offline narzędzie rozpoznawania mowy, które działa bez połączenia internetowego. Obsługuje 20+ języków z kompaktowymi modelami, które mogą działać na urządzeniach mobilnych, Raspberry Pi i każdej platformie. Wbudowany na architekturach Kaldi i Zipformer.

Języki wspierane przez Vosk

Angielski

Hiszpański

Francuski

Niemiecki

Chiński

Japoński

Koreański

Portugalski

Arabski

Hindi

Rosyjski

Włoski

Niderlandzki

Turecki

Polski

Szwedzki

Indonezyjski

Wietnamski

Czeski

Grecki

Informacje o wzorze

DostawcaAlpha Cephei
Architektura-
LicencjaApache 2.0
UaktualnioneMar 2026

Powiązane modele

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Często zadawane pytania

Vosk jest modelem mowy do tekstu przez Alpha Cephei. STT.ai hosts Vosk na naszej infrastrukturze GPU, dzięki czemu można go wykorzystać bez dostarczania własnego sprzętu – wyślij audio lub wideo i wybierz Vosk z wybieracza modeli.

W odniesieniu do standardowych poziomów odniesienia Vosk osiąga około 12.0% Błędów Word. Dokładność rzeczywistego świata zależy od jakości dźwięku, akcentu i języka; w przypadku głośnych lub akcentowanych nagrań, oczekuje się kilku punktów procentowych wyższych WER.

Vosk biegnie na STT.ai bezpłatny poziom – każdy gościa otrzymuje 600 minut na rozpoczęcie bez kosztów. Wypłata planów dodaje dłużej limity na pliki, prywatne transkrypty i priorytetowe kolejki.

Vosk jest wydane pod Apache 2.0, licencja otwartego źródła. Można samodzielnie gospodarować Vosk na własnym sprzętie lub korzystać z naszej hospodowanej wersji – obie są komercyjne użyteczne.

Vosk obsługuje 20 języków. Automatyczne wykrywanie wybiera właściwy język dla większości audio; można również wskazywać go ręcznie dla małego podnoszenia dokładności.

Vosk procesów audio w około 100.0x w czasie rzeczywistym na naszych GPU. 1-godzinny plik audio zakończy się w mniej niż 8802 minut; dłuższa kolejka plików i powiadomić za pośrednictwem e-maila.

Vosk ma 8802 parametrów. Większe modele są zazwyczaj bardziej dokładne, ale wolniej; STT.ai hostów Vosk w GPU, tak aby liczba parametrów nie wpływała na wydajność klienta.

Vosk akceptuje każdy format obsługi STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI i inne. Wynik jako TXT, SRT, VTT, DOCX, JSON lub PDF.

Tak. Dializacja głośnika biegnie obok Vosk dla każdej transkrypcji — każdy głośnik jest oznaczony i można je później zmienić w edytorze.

Tak. Vosk uruchamia w naszym zarządzanym środowisku – audio jest przetwarzany i usuwany domyślnie i nigdy nie używany do szkolenia bez wyraźnego opt-in. Pro plany dodają klient-side szyfrowanie do transkrypcji w pokoju.

Użyj narzędzia porównania-stt, aby uruchomić Vosk w stosunku do jakiegokolwiek innego modelu obsługiwanego w tym samym audio – zobaczysz WER, liczbę segmentów, etykiety głośnika i wyniki ufności po stronie. Porównanie Vosk ws Whisper Large V3 jest najczęściej uruchomione.

Tak. Określić "vosk" jako parametr modelu w końcowym punktie końcowym /v1/transcribe. Python i Node.js SDKs zawierają Vosk przykładów. Darmowy poziom API obejmuje 100 minut/miesiąc.

Tak. Ponieważ Vosk jest 8802-licenzowany, możesz go sam-host. STT.ai stron otwartego źródła wykazuje repo i wagi projektu. Większość zespołów produkcyjnych korzysta z naszej hosted wersji, aby pominąć zamówienia GPU, modele swaps i ops.

Transcribe z Vosk

O tematie Vosk

Języki wspierane przez Vosk

Informacje o wzorze

Powiązane modele

Często zadawane pytania

Ile to jest Vosk?

Jak dokładne jest Vosk?

Czy Vosk jest do użytku?

Jaką licencję stosuje Vosk?

Ile języków wspiera Vosk?

Jak szybko jest Vosk?

Jak duży jest model Vosk?

Jakie formaty audio mogą wpisać Vosk transcribe?

Czy Vosk wykrywa wiele głośników?

Czy moje dane są prywatne podczas stosowania Vosk?

W jaki sposób Vosk porównuje się z innymi modelami STT?

Czy mogę użyć Vosk za pośrednictwem API?

Mogę uruchomić Vosk na własnym serwerze?