ਨਾਲ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ Vosk

ਪਬਲਿਕਲੀ ਉਪਲੱਬਧ ਆਡੀਓ ਅਤੇ ਵੀਡਿਓ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ। DRM- ਸੁਰੱਖਿਅਤ ਸਮੱਗਰੀ ਲਈ ਸਹਾਇਕ ਨਹੀਂ ਹੈ।

ਵਧਾਓ ਲਈ ਅੱਪਗਰੇਡ
Private transcript
ਟਰਾਂਸਕਰੀਪਟ ਨਾਲ ਗੱਲਬਾਤ
ਪਰੋ ਨਾਲ ਅਣ- ਲਾਕ →
ਫਾਇਲ ਇੱਥੇ ਸੁੱਟੋ ਜਾਂ ਝਲਕਣ ਲਈ ਕਲਿੱਕ ਕਰੋ
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM —2GB ਤੱਕ
ਵਧਾਓ ਲਈ ਅੱਪਗਰੇਡ
Private transcript
ਟਰਾਂਸਕਰੀਪਟ ਨਾਲ ਗੱਲਬਾਤ
ਪਰੋ ਨਾਲ ਅਣ- ਲਾਕ →
ਵਧਾਓ ਲਈ ਅੱਪਗਰੇਡ
ਰਿਕਾਰਡਿੰਗ: 0:00
ਰੀਅਲ- ਟਾਈਮ ਮੋਮ (ਅਕਾਲੀ)
ਵਧਾਇਆ Whisper (ਸਹੀ)
ਪਬਲਿਕ ਲਿੰਕ: 24h, ਸਿਰਫ਼ ਟੈਕਸਟ · ਸਾਈਨ ਅੱਪ 7d + ਆਡੀਓ ਲਈ · ਪਰੋ ਨਿੱਜੀ ਲਿੰਕਾਂ ਲਈ

ਰੀਅਲ-ਟਾਈਮ ਬੋਲੀ ਤੋਂ ਪਾਠ । AI ਆਟੋ-ਸੁਧਾਰ ਕਰਦਾ ਹੈ ਜਿਵੇਂ ਤੁਸੀਂ ਬੋਲਦੇ ਹੋ — ਲੰਬੀ ਬੋਲੀ ਨਾਲ ਠੀਕਾਈ ਵਧਦੀ ਹੈ ।

ਪਹਿਲਾਂ ਆਪਣਾ ਮਾਈਕਰੋਫੋਨ ਟੈਸਟ ਕਰੋ
❤️ STT.ai ਪਸੰਦ ਹੈ? ਆਪਣੇ ਦੋਸਤਾਂ ਨੂੰ ਦੱਸੋ!
ਤੁਸੀਂ ਆਪਣੀ ਮੁਫਤ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਵਰਤੀ ਹੈ

600 ਮਿੰਟ/ਮਹੀਨਾ ਲੈਣ ਲਈ ਮੁਫਤ ਲਈ ਸਾਈਨ ਅਪ ਕਰੋ, ਜਾਂ ਅਣ-ਮਿੱਥੇ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਲਈ ਅੱਪਗਰੇਡ ਕਰੋ।

10 ਮੁਫਤ ਮਿੰਟ/ਦਿਨ 600 ਮਿੰਟ ਮੁਫ਼ਤ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਨਹੀਂ ਇੰਕ੍ਰਿਪਟਡ
ਮੁਫ਼ਤ ਲਈ ਸਾਈਨ ਅੱਪ ਕਰੋ →
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License

ਬਾਰੇ Vosk

Vosk is an offline speech recognition toolkit that works without an internet connection. It supports 20+ languages with compact models that can run on mobile devices, Raspberry Pi, and any platform. Built on Kaldi and Zipformer architectures.

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

Vosk Alpha Cephei ਵਲੋਂ ਇੱਕ ਬੋਲੀ- ਤੋਂ- ਪਾਠ ਮਾਡਲ ਹੈ । STT.ai ਸਾਡੇ GPU ਇੰਫਰਾਸਟਰਕਚਰ ਉੱਤੇ Vosk ਹੋਸਟ ਕਰਦਾ ਹੈ ਤਾਂ ਕਿ ਤੁਸੀਂ ਇਸ ਨੂੰ ਆਪਣੇ ਹਾਰਡਵੇਅਰ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਵਰਤ ਸਕਦੇ ਹੋ — ਆਡੀਓ ਜਾਂ ਵੀਡਿਓ ਅੱਪਲੋਡ ਕਰੋ ਅਤੇ ਮਾਡਲ ਚੋਣਕਾਰ ਤੋਂ Vosk ਚੁਣੋ ।

ਸਟੈਂਡਰਡ ਬੈਂਕਮਾਰਕਾਂ ਉੱਤੇ, Vosk ਨੇ 12.0% ਸ਼ਬਦ ਗਲਤੀ ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ। ਅਸਲੀ- ਦੁਨੀਆ ਦੀ ਸਹੀਤਾ ਆਡੀਓ ਕੁਆਲਟੀ, ਅੱਖਰਾਂ ਅਤੇ ਭਾਸ਼ਾ ਉੱਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ; ਗੂੰਜ ਜਾਂ ਅੱਖਰਾਂ ਨਾਲ ਰਿਕਾਰਡਿੰਗ ਲਈ, ਕੁਝ ਪ੍ਰਤੀਸ਼ਤ ਅੰਕਾਂ ਦੀ ਵੱਧ WER ਦੀ ਉਮੀਦ ਕਰੋ।

Vosk STT.ai ਦੇ ਮੁਫਤ ਪੱਧਰ ਉੱਤੇ ਚੱਲਦਾ ਹੈ - ਹਰੇਕ ਝਲਕਾਰਾ 600 ਮਿੰਟ/ਮਹੀਨਾ ਮੁਫਤ ਵਿੱਚ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਭੁਗਤਾਨ ਕੀਤੇ ਪਲਾਨ ਲੰਬੇ ਪ੍ਰਤੀ-ਫਾਇਲ ਸੀਮਾਵਾਂ, ਨਿੱਜੀ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਅਤੇ ਤਰਜੀਹ ਕਤਾਰਬੱਧਤਾ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ।

Vosk ਨੂੰ Apache 2.0, ਇੱਕ ਖੋਲ੍ਹੇ ਸਰੋਤ ਲਾਈਸੈਂਸ ਅਧੀਨ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਹੈ । ਤੁਸੀਂ ਆਪਣੇ ਹਾਰਡਵੇਅਰ ਉੱਤੇ Vosk ਨੂੰ ਆਪ ਹੀ ਹੋਸਟ ਕਰ ਸਕਦੇ ਹੋ ਜਾਂ ਸਾਡਾ ਹੋਸਟ ਵਰਜਨ ਵਰਤ ਸਕਦੇ ਹੋ — ਦੋਵੇਂ ਵਪਾਰਕ ਤੌਰ ਉੱਤੇ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ ।

Vosk 20 ਭਾਸ਼ਾਵਾਂ ਲਈ ਸਹਾਇਕ ਹੈ। ਆਟੋ-ਖੋਜ ਬਹੁਤੇ ਆਡੀਓ ਲਈ ਸਹੀ ਭਾਸ਼ਾ ਚੁਣਦੀ ਹੈ; ਤੁਸੀਂ ਇਸ ਨੂੰ ਛੋਟੀ ਸਹੀਤਾ ਲਈ ਦਸਤੀ ਵੀ ਦੇ ਸਕਦੇ ਹੋ।

Vosk ਸਾਡੇ GPUs ਉੱਤੇ 100.0x ਰੀਅਲ-ਟਾਈਮ ਉੱਤੇ ਆਡੀਓ ਪਰੋਸੈਸ ਕਰਦਾ ਹੈ। 1 ਘੰਟੇ ਦੀ ਆਡੀਓ ਫਾਇਲ 1 ਮਿੰਟਾਂ ਵਿੱਚ ਖਤਮ ਹੁੰਦੀ ਹੈ; ਲੰਬੀਆਂ ਫਾਇਲਾਂ ਕਤਾਰ ਵਿੱਚ ਲੱਗੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ ਅਤੇ ਜਦੋਂ ਖਤਮ ਹੁੰਦੀਆਂ ਹਨ ਤਾਂ ਈ-ਮੇਲ ਰਾਹੀਂ ਸੂਚਿਤ ਹੁੰਦੀਆਂ ਹਨ।

Vosk ਵਿੱਚ 50M ਪੈਰਾਮੀਟਰ ਹਨ। ਵੱਡੇ ਮਾਡਲ ਵਧੇਰੇ ਸਹੀ ਪਰ ਹੌਲੀ ਹੁੰਦੇ ਹਨ; STT.ai GPU ਉੱਤੇ Vosk ਹੋਸਟ ਕਰਦਾ ਹੈ ਤਾਂ ਕਿ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਤੁਹਾਡੀ ਕਲਾਇਟ-ਸਾਈਡ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦੀ ਹੈ।

Vosk ਹਰ ਫਾਰਮੈਟ ਨੂੰ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ STT.ai ਸਹਿਯੋਗੀ ਹੈ - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, ਅਤੇ ਹੋਰ। ਆਉਟਪੁੱਟ TXT, SRT, VTT, DOCX, JSON, ਜਾਂ PDF ਦੇ ਰੂਪ ਵਿੱਚ ਹੈ।

ਹਾਂ । ਸਪੀਕਰ ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਹਰੇਕ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਲਈ Vosk ਦੇ ਨਾਲ ਚੱਲਦਾ ਹੈ — ਹਰੇਕ ਸਪੀਕਰ ਨੂੰ ਲੇਬਲ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਤੁਸੀਂ ਬਾਅਦ ਵਿੱਚ ਐਡੀਟਰ ਵਿੱਚ ਉਨ੍ਹਾਂ ਦਾ ਨਾਂ ਬਦਲ ਸਕਦੇ ਹੋ ।

ਹਾਂ । Vosk ਸਾਡੇ ਪਰਬੰਧਿਤ ਵਾਤਾਵਰਣ ਵਿੱਚ ਚੱਲਦਾ ਹੈ — ਆਡੀਓ ਡਿਫਾਲਟ ਤੌਰ ਤੇ ਪਰੋਸੈੱਸ ਅਤੇ ਹਟਾਏ ਜਾਂਦੇ ਹਨ ਅਤੇ ਬਿਨਾਂ ਸਪੱਸ਼ਟ ਚੋਣ-ਇਨ ਦੇ ਟਰੇਨਿੰਗ ਲਈ ਕਦੇ ਨਹੀਂ ਵਰਤੇ ਜਾਂਦੇ ਹਨ । ਪਰੋ ਪਲਾਨ ਠੀਕ ਸਮੇਂ ਉੱਤੇ ਟਰਾਂਸਕਰੀਪਟ ਲਈ ਕਲਾਂਇਟ-ਸਾਈਡ ਇੰਕ੍ਰਿਪਸ਼ਨ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ ।

ਇੱਕੋ ਆਡੀਓ ਉੱਤੇ ਕਿਸੇ ਹੋਰ ਸਹਾਇਕ ਮਾਡਲ ਨਾਲ Vosk ਚਲਾਉਣ ਲਈ compare-stt ਟੂਲ ਵਰਤੋਂ - ਤੁਸੀਂ WER, ਸੈਗਮੈਂਟ ਗਿਣਤੀ, ਸਪੀਕਰ ਲੇਬਲ ਅਤੇ ਭਰੋਸੇਯੋਗ ਸਕੋਰ ਨੂੰ ਪਾਸੇ-ਪਾਸੇ ਵੇਖੋਗੇ। Vosk ਵਿਰੁੱਧ Whisper Large V3 ਤੁਲਨਾ ਸਭ ਤੋਂ ਵੱਧ ਚਲਾਈ ਜਾਂਦੀ ਹੈ।

ਹਾਂ। /v1/transcribe ਅੰਤ-ਬਿੱਟ ਉੱਤੇ ਮਾਡਲ ਪੈਰਾਮੀਟਰ ਵਜੋਂ "vosk" ਦਿਓ। Python ਅਤੇ Node.js SDKs ਵਿੱਚ Vosk ਉਦਾਹਰਣ ਸ਼ਾਮਲ ਹਨ। ਮੁਫਤ API ਟਾਇਰ ਵਿੱਚ 100 ਮਿੰਟ/ਮਹੀਨਾ ਸ਼ਾਮਲ ਹੈ।

ਹਾਂ, ਕਿਉਂਕਿ Vosk Apache 2.0-ਲਾਈਸੈਂਸਡ ਹੈ, ਤੁਸੀਂ ਇਸ ਨੂੰ ਆਪ ਹੀ ਹੋਸਟ ਕਰ ਸਕਦੇ ਹੋ। STT.ai ਦਾ ਓਪਨ-ਸੋਰਸ ਪੇਜ਼ ਪ੍ਰੋਜੈਕਟ ਰੈਪੋ ਅਤੇ ਭਾਰ ਦੀ ਸੂਚੀ ਦਿੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਉਤਪਾਦਨ ਟੀਮਾਂ GPU ਖਰੀਦ, ਮਾਡਲ ਸਵਾਪ ਅਤੇ ਓਪਸ ਛੱਡਣ ਲਈ ਸਾਡੇ ਹੋਸਟ ਵਰਜਨ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ।