ਨਾਲ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
ਬਾਰੇ Vosk
Vosk is an offline speech recognition toolkit that works without an internet connection. It supports 20+ languages with compact models that can run on mobile devices, Raspberry Pi, and any platform. Built on Kaldi and Zipformer architectures.
ਸਮਰਥਿਤ ਭਾਸ਼ਾਵਾਂ Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ
Vosk Alpha Cephei ਵਲੋਂ ਇੱਕ ਬੋਲੀ- ਤੋਂ- ਪਾਠ ਮਾਡਲ ਹੈ । STT.ai ਸਾਡੇ GPU ਇੰਫਰਾਸਟਰਕਚਰ ਉੱਤੇ Vosk ਹੋਸਟ ਕਰਦਾ ਹੈ ਤਾਂ ਕਿ ਤੁਸੀਂ ਇਸ ਨੂੰ ਆਪਣੇ ਹਾਰਡਵੇਅਰ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਵਰਤ ਸਕਦੇ ਹੋ — ਆਡੀਓ ਜਾਂ ਵੀਡਿਓ ਅੱਪਲੋਡ ਕਰੋ ਅਤੇ ਮਾਡਲ ਚੋਣਕਾਰ ਤੋਂ Vosk ਚੁਣੋ ।
ਸਟੈਂਡਰਡ ਬੈਂਕਮਾਰਕਾਂ ਉੱਤੇ, Vosk ਨੇ 12.0% ਸ਼ਬਦ ਗਲਤੀ ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ। ਅਸਲੀ- ਦੁਨੀਆ ਦੀ ਸਹੀਤਾ ਆਡੀਓ ਕੁਆਲਟੀ, ਅੱਖਰਾਂ ਅਤੇ ਭਾਸ਼ਾ ਉੱਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ; ਗੂੰਜ ਜਾਂ ਅੱਖਰਾਂ ਨਾਲ ਰਿਕਾਰਡਿੰਗ ਲਈ, ਕੁਝ ਪ੍ਰਤੀਸ਼ਤ ਅੰਕਾਂ ਦੀ ਵੱਧ WER ਦੀ ਉਮੀਦ ਕਰੋ।
Vosk STT.ai ਦੇ ਮੁਫਤ ਪੱਧਰ ਉੱਤੇ ਚੱਲਦਾ ਹੈ - ਹਰੇਕ ਝਲਕਾਰਾ 600 ਮਿੰਟ/ਮਹੀਨਾ ਮੁਫਤ ਵਿੱਚ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਭੁਗਤਾਨ ਕੀਤੇ ਪਲਾਨ ਲੰਬੇ ਪ੍ਰਤੀ-ਫਾਇਲ ਸੀਮਾਵਾਂ, ਨਿੱਜੀ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਅਤੇ ਤਰਜੀਹ ਕਤਾਰਬੱਧਤਾ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ।
Vosk ਨੂੰ Apache 2.0, ਇੱਕ ਖੋਲ੍ਹੇ ਸਰੋਤ ਲਾਈਸੈਂਸ ਅਧੀਨ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਹੈ । ਤੁਸੀਂ ਆਪਣੇ ਹਾਰਡਵੇਅਰ ਉੱਤੇ Vosk ਨੂੰ ਆਪ ਹੀ ਹੋਸਟ ਕਰ ਸਕਦੇ ਹੋ ਜਾਂ ਸਾਡਾ ਹੋਸਟ ਵਰਜਨ ਵਰਤ ਸਕਦੇ ਹੋ — ਦੋਵੇਂ ਵਪਾਰਕ ਤੌਰ ਉੱਤੇ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ ।
Vosk 20 ਭਾਸ਼ਾਵਾਂ ਲਈ ਸਹਾਇਕ ਹੈ। ਆਟੋ-ਖੋਜ ਬਹੁਤੇ ਆਡੀਓ ਲਈ ਸਹੀ ਭਾਸ਼ਾ ਚੁਣਦੀ ਹੈ; ਤੁਸੀਂ ਇਸ ਨੂੰ ਛੋਟੀ ਸਹੀਤਾ ਲਈ ਦਸਤੀ ਵੀ ਦੇ ਸਕਦੇ ਹੋ।
Vosk ਸਾਡੇ GPUs ਉੱਤੇ 100.0x ਰੀਅਲ-ਟਾਈਮ ਉੱਤੇ ਆਡੀਓ ਪਰੋਸੈਸ ਕਰਦਾ ਹੈ। 1 ਘੰਟੇ ਦੀ ਆਡੀਓ ਫਾਇਲ 1 ਮਿੰਟਾਂ ਵਿੱਚ ਖਤਮ ਹੁੰਦੀ ਹੈ; ਲੰਬੀਆਂ ਫਾਇਲਾਂ ਕਤਾਰ ਵਿੱਚ ਲੱਗੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ ਅਤੇ ਜਦੋਂ ਖਤਮ ਹੁੰਦੀਆਂ ਹਨ ਤਾਂ ਈ-ਮੇਲ ਰਾਹੀਂ ਸੂਚਿਤ ਹੁੰਦੀਆਂ ਹਨ।
Vosk ਵਿੱਚ 50M ਪੈਰਾਮੀਟਰ ਹਨ। ਵੱਡੇ ਮਾਡਲ ਵਧੇਰੇ ਸਹੀ ਪਰ ਹੌਲੀ ਹੁੰਦੇ ਹਨ; STT.ai GPU ਉੱਤੇ Vosk ਹੋਸਟ ਕਰਦਾ ਹੈ ਤਾਂ ਕਿ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਤੁਹਾਡੀ ਕਲਾਇਟ-ਸਾਈਡ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦੀ ਹੈ।
Vosk ਹਰ ਫਾਰਮੈਟ ਨੂੰ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ STT.ai ਸਹਿਯੋਗੀ ਹੈ - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, ਅਤੇ ਹੋਰ। ਆਉਟਪੁੱਟ TXT, SRT, VTT, DOCX, JSON, ਜਾਂ PDF ਦੇ ਰੂਪ ਵਿੱਚ ਹੈ।
ਹਾਂ । ਸਪੀਕਰ ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਹਰੇਕ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਲਈ Vosk ਦੇ ਨਾਲ ਚੱਲਦਾ ਹੈ — ਹਰੇਕ ਸਪੀਕਰ ਨੂੰ ਲੇਬਲ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਤੁਸੀਂ ਬਾਅਦ ਵਿੱਚ ਐਡੀਟਰ ਵਿੱਚ ਉਨ੍ਹਾਂ ਦਾ ਨਾਂ ਬਦਲ ਸਕਦੇ ਹੋ ।
ਹਾਂ । Vosk ਸਾਡੇ ਪਰਬੰਧਿਤ ਵਾਤਾਵਰਣ ਵਿੱਚ ਚੱਲਦਾ ਹੈ — ਆਡੀਓ ਡਿਫਾਲਟ ਤੌਰ ਤੇ ਪਰੋਸੈੱਸ ਅਤੇ ਹਟਾਏ ਜਾਂਦੇ ਹਨ ਅਤੇ ਬਿਨਾਂ ਸਪੱਸ਼ਟ ਚੋਣ-ਇਨ ਦੇ ਟਰੇਨਿੰਗ ਲਈ ਕਦੇ ਨਹੀਂ ਵਰਤੇ ਜਾਂਦੇ ਹਨ । ਪਰੋ ਪਲਾਨ ਠੀਕ ਸਮੇਂ ਉੱਤੇ ਟਰਾਂਸਕਰੀਪਟ ਲਈ ਕਲਾਂਇਟ-ਸਾਈਡ ਇੰਕ੍ਰਿਪਸ਼ਨ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ ।
ਇੱਕੋ ਆਡੀਓ ਉੱਤੇ ਕਿਸੇ ਹੋਰ ਸਹਾਇਕ ਮਾਡਲ ਨਾਲ Vosk ਚਲਾਉਣ ਲਈ compare-stt ਟੂਲ ਵਰਤੋਂ - ਤੁਸੀਂ WER, ਸੈਗਮੈਂਟ ਗਿਣਤੀ, ਸਪੀਕਰ ਲੇਬਲ ਅਤੇ ਭਰੋਸੇਯੋਗ ਸਕੋਰ ਨੂੰ ਪਾਸੇ-ਪਾਸੇ ਵੇਖੋਗੇ। Vosk ਵਿਰੁੱਧ Whisper Large V3 ਤੁਲਨਾ ਸਭ ਤੋਂ ਵੱਧ ਚਲਾਈ ਜਾਂਦੀ ਹੈ।
ਹਾਂ। /v1/transcribe ਅੰਤ-ਬਿੱਟ ਉੱਤੇ ਮਾਡਲ ਪੈਰਾਮੀਟਰ ਵਜੋਂ "vosk" ਦਿਓ। Python ਅਤੇ Node.js SDKs ਵਿੱਚ Vosk ਉਦਾਹਰਣ ਸ਼ਾਮਲ ਹਨ। ਮੁਫਤ API ਟਾਇਰ ਵਿੱਚ 100 ਮਿੰਟ/ਮਹੀਨਾ ਸ਼ਾਮਲ ਹੈ।
ਹਾਂ, ਕਿਉਂਕਿ Vosk Apache 2.0-ਲਾਈਸੈਂਸਡ ਹੈ, ਤੁਸੀਂ ਇਸ ਨੂੰ ਆਪ ਹੀ ਹੋਸਟ ਕਰ ਸਕਦੇ ਹੋ। STT.ai ਦਾ ਓਪਨ-ਸੋਰਸ ਪੇਜ਼ ਪ੍ਰੋਜੈਕਟ ਰੈਪੋ ਅਤੇ ਭਾਰ ਦੀ ਸੂਚੀ ਦਿੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਉਤਪਾਦਨ ਟੀਮਾਂ GPU ਖਰੀਦ, ਮਾਡਲ ਸਵਾਪ ਅਤੇ ਓਪਸ ਛੱਡਣ ਲਈ ਸਾਡੇ ਹੋਸਟ ਵਰਜਨ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ।