Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Často kladené otázky
Vosk je ukázkový model od Alpha Cephei. STT.ai hostů Vosk na naší GPU infrastruktuře, takže ji můžete použít bez poskytnutí vlastního hardwaru a nahrát audio nebo video a vybrat Vosk z modelového sběrače.
Na standardních referenčních hodnotách dosahuje Vosk přibližně 12.0% Word Error Rate. Skutečná přesnost závisí na kvalitě zvuku, přízvuku a jazyku; u hlučných nebo akcentovaných nahrávek očekáváme o několik procentních bodů vyšší WER.
Vosk běží na STT.ai volných úrovní, každý návštěvník dostane 600 minut / měsíc bez nákladů. Placené plány přidat déle na-file limity, soukromé přepisy, a prioritní fronty.
Vosk je uvolněno pod Apache 2.0, povolná open-source licence. Můžete self-host Vosk na vašem vlastním hardwaru, nebo použít naši hostitelskou verzi dírky oba jsou komerčně použitelné.
Vosk podporuje 20 jazyků. Auto-detekce vybírá správný jazyk pro většinu audio; můžete jej také ručně zadat pro malý výtah přesnosti.
Vosk zpracovává audio na cca 100.0x v reálném čase na našich GPU. 1-hodinový audio soubor končí za méně než 1 minut; delší fronta souborů a upozornění e-mailem, když je hotovo.
Vosk má 50M parametrů. Větší modely mají tendenci být přesnější, ale pomalejší; STT.ai hostů Vosk na GPU, takže počet parametrů nemá vliv na výkon na straně klienta.
Vosk přijímá každý formát STT.ai podporuje MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI a další. Výstup jako TXT, SRT, VTT, DOCX, JSON, nebo PDF.
Ano. Diarizace reproduktorů vede vedle Vosk pro každý přepis a každý reproduktor je označen a můžete je přejmenovat v editoru později.
Ano. Vosk běží v našem řízeném prostředí Audio je zpracováno a smazáno ve výchozím nastavení a nikdy se nepoužívá pro trénink bez explicitního opt-inu. Pro plány přidat klient-strana šifrování pro přepisy v klidu.
Pomocí porovná-stt nástroj spustit Vosk proti jakémukoliv jinému podporovanému modelu na stejném zvuku, budete vidět WER, počet segmentů, reproduktory štítky, a sebedůvěry skóre vedle sebe. Vosk vs Whisper Large V3 srovnání je nejčastějším spuštěním.
Ano. Zadejte "vosk" jako parametr modelu na cílovém parametru /v1/transcribe. Python a Node.js SDKs obsahují Vosk příklady. Bezplatná úroveň API zahrnuje 100 minut/měsíc.
Ano. Vzhledem k tomu, Vosk je Apache 2.0-licencován, můžete si ho sami-hostit. STT.ai open-source stránky uvádí projekt repo a váhy. Většina výrobních týmů používá naši hostitelskou verzi přeskočit GPU zadávání zakázek, modelové swapy, a ops.