ਬੱਗ ਰਿਪੋਰਟ / ਫੀਚਰ ਮੰਗ

ਇਸ ਨਾਲ ਟਰਾਂਸਕਰੀਪਟ Vosk

Name: Vosk
Author: Alpha Cephei

ਪਬਲਿਕਲੀ ਉਪਲੱਬਧ ਆਡੀਓ ਅਤੇ ਵੀਡਿਓ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ। DRM- ਸੁਰੱਖਿਅਤ ਸਮੱਗਰੀ ਲਈ ਸਹਾਇਕ ਨਹੀਂ ਹੈ।

ਵਧਾਓ ਲਈ ਅੱਪਗਰੇਡ

ਨਿੱਜੀ ਟਰਾਂਸਕਰੀਪਟ

ਟਰਾਂਸਕਰੀਪਟ ਨਾਲ ਗੱਲਬਾਤ

ਪਰੋ ਨਾਲ ਅਣ- ਲਾਕ →

ਫਾਇਲ ਇੱਥੇ ਸੁੱਟੋ ਜਾਂ ਝਲਕਣ ਲਈ ਕਲਿੱਕ ਕਰੋ

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM —2GB ਤੱਕ

ਕਈ ਫਾਇਲਾਂ ਬੈਚ ਅੱਪਲੋਡ ਪ੍ਰੋ ਨਾਲ

ਵਧਾਓ ਲਈ ਅੱਪਗਰੇਡ

ਨਿੱਜੀ ਟਰਾਂਸਕਰੀਪਟ

ਟਰਾਂਸਕਰੀਪਟ ਨਾਲ ਗੱਲਬਾਤ

ਪਰੋ ਨਾਲ ਅਣ- ਲਾਕ →

ਵਧਾਓ ਲਈ ਅੱਪਗਰੇਡ

ਰੀਅਲ-ਟਾਈਮ ਬੋਲੀ ਤੋਂ ਪਾਠ । AI ਆਟੋ-ਸੁਧਾਰ ਕਰਦਾ ਹੈ ਜਿਵੇਂ ਤੁਸੀਂ ਬੋਲਦੇ ਹੋ — ਲੰਬੀ ਬੋਲੀ ਨਾਲ ਠੀਕਾਈ ਵਧਦੀ ਹੈ ।

ਪਹਿਲਾਂ ਆਪਣਾ ਮਾਈਕਰੋਫੋਨ ਟੈਸਟ ਕਰੋ

10 ਮੁਫਤ ਮਿੰਟ/ਦਿਨ 600 ਮਿੰਟ ਮੁਫ਼ਤ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਨਹੀਂ ਇੰਕ੍ਰਿਪਟਡ

ਮੁਫ਼ਤ ਲਈ ਸਾਈਨ ਅੱਪ ਕਰੋ →

12.0%

WER

ਭਾਸ਼ਾਵਾਂ

100.0x

ਗਤੀ

Apache 2.0

ਲਾਈਸੈਂਸ

ਬਾਰੇ Vosk

ਵੋਸਕ ਇੱਕ ਆਫਲਾਇਨ ਬੋਲੀ ਪਛਾਣ ਟੂਲਕਿੱਟ ਹੈ, ਜੋ ਕਿ ਇੰਟਰਨੈੱਟ ਕੁਨੈਕਸ਼ਨ ਦੇ ਬਿਨਾਂ ਕੰਮ ਕਰਦੀ ਹੈ। ਇਹ ਮੋਬਾਇਲ ਜੰਤਰਾਂ, ਰਸਬੇਰੀ ਪੀਆਈ ਅਤੇ ਕਿਸੇ ਵੀ ਪਲੇਟਫਾਰਮ ਉੱਤੇ ਚੱਲਣ ਵਾਲੇ ਕੰਪੈਕਟ ਮਾਡਲਾਂ ਨਾਲ 20+ ਭਾਸ਼ਾਵਾਂ ਲਈ ਸਹਾਇਕ ਹੈ। ਕਾਲਡੀ ਅਤੇ ਜ਼ਿੱਪਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਉੱਤੇ ਬਣਾਇਆ ਗਿਆ ਹੈ।

ਸਹਾਇਕ ਭਾਸ਼ਾਵਾਂ Vosk

ਅੰਗਰੇਜ਼ੀ

ਸਪੇਨੀ

ਫਰਾਂਸੀਸੀ

ਜਰਮਨ

ਚੀਨੀ

ਜਪਾਨੀ

ਕੋਰੀਆਈ

ਪੁਰਤਗਾਲੀ

ਅਰਬੀ

ਹਿੰਦੀ

ਰੂਸੀ

ਇਤਾਲਵੀ

ਡੱਚ

ਤੁਰਕੀ

ਪੋਲੈਂਡੀ

ਸਵੀਡਿਸ਼

ਇੰਡੋਨੇਸ਼ੀਆਈ

ਵੀਅਤਨਾਮੀ

ਚੈੱਕ

ਯੂਨਾਨੀ

ਮਾਡਲ ਜਾਣਕਾਰੀ

ਪਰੋਵਾਈਡਰAlpha Cephei
ਆਰਕੀਟੈਕਚਰ-
ਲਾਈਸੈਂਸApache 2.0
ਅੱਪਡੇਟMar 2026

ਸਬੰਧਤ ਮਾਡਲ

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

Vosk Alpha Cephei ਵਲੋਂ ਇੱਕ ਬੋਲੀ- ਤੋਂ- ਪਾਠ ਮਾਡਲ ਹੈ । STT.ai ਸਾਡੇ GPU ਇੰਫਰਾਸਟਰਕਚਰ ਉੱਤੇ Vosk ਹੋਸਟ ਕਰਦਾ ਹੈ ਤਾਂ ਕਿ ਤੁਸੀਂ ਇਸ ਨੂੰ ਆਪਣੇ ਹਾਰਡਵੇਅਰ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਵਰਤ ਸਕਦੇ ਹੋ — ਆਡੀਓ ਜਾਂ ਵੀਡਿਓ ਅੱਪਲੋਡ ਕਰੋ ਅਤੇ ਮਾਡਲ ਚੋਣਕਾਰ ਤੋਂ Vosk ਚੁਣੋ ।

ਸਟੈਂਡਰਡ ਬੈਂਕਮਾਰਕਾਂ ਉੱਤੇ, Vosk ਨੇ 12.0% ਸ਼ਬਦ ਗਲਤੀ ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ। ਅਸਲੀ- ਦੁਨੀਆ ਦੀ ਸਹੀਤਾ ਆਡੀਓ ਕੁਆਲਟੀ, ਅੱਖਰਾਂ ਅਤੇ ਭਾਸ਼ਾ ਉੱਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ; ਗੂੰਜ ਜਾਂ ਅੱਖਰਾਂ ਨਾਲ ਰਿਕਾਰਡਿੰਗ ਲਈ, ਕੁਝ ਪ੍ਰਤੀਸ਼ਤ ਅੰਕਾਂ ਦੀ ਵੱਧ WER ਦੀ ਉਮੀਦ ਕਰੋ।

Vosk STT.ai ਦੀ ਮੁਫਤ ਟਾਇਰ ਉੱਤੇ ਚੱਲਦਾ ਹੈ - ਹਰੇਕ ਝਲਕਾਰਾ ਨੂੰ ਮੁਫਤ ਸ਼ੁਰੂ ਕਰਨ ਲਈ 600 ਮਿੰਟ ਮਿਲਦੇ ਹਨ। ਭੁਗਤਾਨ ਕੀਤੇ ਪਲਾਨ ਲੰਬੇ ਪ੍ਰਤੀ ਫਾਇਲ ਸੀਮਾਵਾਂ, ਨਿੱਜੀ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਅਤੇ ਤਰਜੀਹ ਕਤਾਰਬੱਧਤਾ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ।

Vosk ਨੂੰ Apache 2.0, ਇੱਕ ਖੋਲ੍ਹੇ ਸਰੋਤ ਲਾਈਸੈਂਸ ਅਧੀਨ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਹੈ । ਤੁਸੀਂ ਆਪਣੇ ਹਾਰਡਵੇਅਰ ਉੱਤੇ Vosk ਨੂੰ ਆਪ ਹੀ ਹੋਸਟ ਕਰ ਸਕਦੇ ਹੋ ਜਾਂ ਸਾਡਾ ਹੋਸਟ ਵਰਜਨ ਵਰਤ ਸਕਦੇ ਹੋ — ਦੋਵੇਂ ਵਪਾਰਕ ਤੌਰ ਉੱਤੇ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ ।

Vosk 20 ਭਾਸ਼ਾਵਾਂ ਲਈ ਸਹਾਇਕ ਹੈ। ਆਟੋ-ਖੋਜ ਬਹੁਤੇ ਆਡੀਓ ਲਈ ਸਹੀ ਭਾਸ਼ਾ ਚੁਣਦੀ ਹੈ; ਤੁਸੀਂ ਇਸ ਨੂੰ ਛੋਟੀ ਸਹੀਤਾ ਲਈ ਦਸਤੀ ਵੀ ਦੇ ਸਕਦੇ ਹੋ।

Vosk ਸਾਡੇ GPUs ਉੱਤੇ 100.0x ਰੀਅਲ-ਟਾਈਮ ਉੱਤੇ ਆਡੀਓ ਪਰੋਸੈਸ ਕਰਦਾ ਹੈ। 1 ਘੰਟੇ ਦੀ ਆਡੀਓ ਫਾਇਲ 1 ਮਿੰਟਾਂ ਵਿੱਚ ਖਤਮ ਹੁੰਦੀ ਹੈ; ਲੰਬੀਆਂ ਫਾਇਲਾਂ ਕਤਾਰ ਵਿੱਚ ਲੱਗੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ ਅਤੇ ਜਦੋਂ ਖਤਮ ਹੁੰਦੀਆਂ ਹਨ ਤਾਂ ਈ-ਮੇਲ ਰਾਹੀਂ ਸੂਚਿਤ ਹੁੰਦੀਆਂ ਹਨ।

Vosk ਵਿੱਚ 50M ਪੈਰਾਮੀਟਰ ਹਨ। ਵੱਡੇ ਮਾਡਲ ਵਧੇਰੇ ਸਹੀ ਪਰ ਹੌਲੀ ਹੁੰਦੇ ਹਨ; STT.ai GPU ਉੱਤੇ Vosk ਹੋਸਟ ਕਰਦਾ ਹੈ ਤਾਂ ਕਿ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਤੁਹਾਡੀ ਕਲਾਇਟ-ਸਾਈਡ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦੀ ਹੈ।

Vosk ਹਰ ਫਾਰਮੈਟ ਨੂੰ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ STT.ai ਸਹਿਯੋਗੀ ਹੈ - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, ਅਤੇ ਹੋਰ। ਆਉਟਪੁੱਟ TXT, SRT, VTT, DOCX, JSON, ਜਾਂ PDF ਦੇ ਰੂਪ ਵਿੱਚ ਹੈ।

ਹਾਂ । ਸਪੀਕਰ ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਹਰੇਕ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਲਈ Vosk ਦੇ ਨਾਲ ਚੱਲਦਾ ਹੈ — ਹਰੇਕ ਸਪੀਕਰ ਨੂੰ ਲੇਬਲ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਤੁਸੀਂ ਬਾਅਦ ਵਿੱਚ ਐਡੀਟਰ ਵਿੱਚ ਉਨ੍ਹਾਂ ਦਾ ਨਾਂ ਬਦਲ ਸਕਦੇ ਹੋ ।

ਹਾਂ । Vosk ਸਾਡੇ ਪਰਬੰਧਿਤ ਵਾਤਾਵਰਣ ਵਿੱਚ ਚੱਲਦਾ ਹੈ — ਆਡੀਓ ਡਿਫਾਲਟ ਤੌਰ ਤੇ ਪਰੋਸੈੱਸ ਅਤੇ ਹਟਾਏ ਜਾਂਦੇ ਹਨ ਅਤੇ ਬਿਨਾਂ ਸਪੱਸ਼ਟ ਚੋਣ-ਇਨ ਦੇ ਟਰੇਨਿੰਗ ਲਈ ਕਦੇ ਨਹੀਂ ਵਰਤੇ ਜਾਂਦੇ ਹਨ । ਪਰੋ ਪਲਾਨ ਠੀਕ ਸਮੇਂ ਉੱਤੇ ਟਰਾਂਸਕਰੀਪਟ ਲਈ ਕਲਾਂਇਟ-ਸਾਈਡ ਇੰਕ੍ਰਿਪਸ਼ਨ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ ।

ਇੱਕੋ ਆਡੀਓ ਉੱਤੇ ਕਿਸੇ ਹੋਰ ਸਹਾਇਕ ਮਾਡਲ ਨਾਲ Vosk ਚਲਾਉਣ ਲਈ compare-stt ਟੂਲ ਵਰਤੋਂ - ਤੁਸੀਂ WER, ਸੈਗਮੈਂਟ ਗਿਣਤੀ, ਸਪੀਕਰ ਲੇਬਲ ਅਤੇ ਭਰੋਸੇਯੋਗ ਸਕੋਰ ਨੂੰ ਪਾਸੇ-ਪਾਸੇ ਵੇਖੋਗੇ। Vosk ਵਿਰੁੱਧ Whisper Large V3 ਤੁਲਨਾ ਸਭ ਤੋਂ ਵੱਧ ਚਲਾਈ ਜਾਂਦੀ ਹੈ।

ਹਾਂ। /v1/transcribe ਅੰਤ-ਬਿੱਟ ਉੱਤੇ ਮਾਡਲ ਪੈਰਾਮੀਟਰ ਵਜੋਂ "vosk" ਦਿਓ। Python ਅਤੇ Node.js SDKs ਵਿੱਚ Vosk ਉਦਾਹਰਣ ਸ਼ਾਮਲ ਹਨ। ਮੁਫਤ API ਟਾਇਰ ਵਿੱਚ 100 ਮਿੰਟ/ਮਹੀਨਾ ਸ਼ਾਮਲ ਹੈ।

ਹਾਂ, ਕਿਉਂਕਿ Vosk Apache 2.0-ਲਾਈਸੈਂਸਡ ਹੈ, ਤੁਸੀਂ ਇਸ ਨੂੰ ਆਪ ਹੀ ਹੋਸਟ ਕਰ ਸਕਦੇ ਹੋ। STT.ai ਦਾ ਓਪਨ-ਸੋਰਸ ਪੇਜ਼ ਪ੍ਰੋਜੈਕਟ ਰੈਪੋ ਅਤੇ ਭਾਰ ਦੀ ਸੂਚੀ ਦਿੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਉਤਪਾਦਨ ਟੀਮਾਂ GPU ਖਰੀਦ, ਮਾਡਲ ਸਵਾਪ ਅਤੇ ਓਪਸ ਛੱਡਣ ਲਈ ਸਾਡੇ ਹੋਸਟ ਵਰਜਨ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ।

ਇਸ ਨਾਲ ਟਰਾਂਸਕਰੀਪਟ Vosk

ਬਾਰੇ Vosk

ਸਹਾਇਕ ਭਾਸ਼ਾਵਾਂ Vosk

ਮਾਡਲ ਜਾਣਕਾਰੀ

ਸਬੰਧਤ ਮਾਡਲ

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

Vosk ਕੀ ਹੈ?

Vosk ਕਿੰਨਾ ਸਹੀ ਹੈ?

ਕੀ Vosk ਮੁਫਤ ਹੈ?

Vosk ਕਿਹੜਾ ਲਾਇਸੈਂਸ ਵਰਤਦਾ ਹੈ?

ਕਿੰਨੀਆਂ ਭਾਸ਼ਾਵਾਂ Vosk ਸਹਿਯੋਗੀ ਹਨ?

Vosk ਕਿੰਨਾ ਤੇਜ਼ ਹੈ?

Vosk ਮਾਡਲ ਕਿੰਨਾ ਵੱਡਾ ਹੈ?

ਕੀ ਆਡੀਓ ਫਾਰਮੈਟ Vosk ਟਰਾਂਸਕਰੀਪਟ ਕਰ ਸਕਦਾ ਹੈ?

ਕੀ Vosk ਕਈ ਸਪੀਕਰ ਲੱਭਦਾ ਹੈ?

ਕੀ Vosk ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ ਮੇਰਾ ਡਾਟਾ ਨਿੱਜੀ ਹੈ?

Vosk ਦੀ ਤੁਲਨਾ ਹੋਰ ਐੱਸਟੀਟੀ ਮਾਡਲਾਂ ਨਾਲ ਕਿਵੇਂ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ?

ਕੀ ਮੈਂ API ਰਾਹੀਂ Vosk ਵਰਤ ਸਕਦਾ ਹਾਂ?

ਕੀ ਮੈਂ ਆਪਣੇ ਸਰਵਰ ਉੱਤੇ Vosk ਚਲਾ ਸਕਦਾ ਹਾਂ?