ਨਾਲ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
ਬਾਰੇ Distil-Whisper
Distil-Whisper is a distilled version of Whisper created by Hugging Face. It reduces the model size by 49% and achieves 6x faster inference while maintaining within 1% WER of the original Whisper Large V2 on out-of-distribution evaluation sets.
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ
Distil-Whisper Hugging Face ਵਲੋਂ ਇੱਕ ਬੋਲੀ- ਤੋਂ- ਪਾਠ ਮਾਡਲ ਹੈ । STT.ai ਸਾਡੇ GPU ਇੰਫਰਾਸਟਰਕਚਰ ਉੱਤੇ Distil-Whisper ਹੋਸਟ ਕਰਦਾ ਹੈ ਤਾਂ ਕਿ ਤੁਸੀਂ ਇਸ ਨੂੰ ਆਪਣੇ ਹਾਰਡਵੇਅਰ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਵਰਤ ਸਕਦੇ ਹੋ — ਆਡੀਓ ਜਾਂ ਵੀਡਿਓ ਅੱਪਲੋਡ ਕਰੋ ਅਤੇ ਮਾਡਲ ਚੋਣਕਾਰ ਤੋਂ Distil-Whisper ਚੁਣੋ ।
ਸਟੈਂਡਰਡ ਬੈਂਕਮਾਰਕਾਂ ਉੱਤੇ, Distil-Whisper ਨੇ 5.8% ਸ਼ਬਦ ਗਲਤੀ ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ। ਅਸਲੀ- ਦੁਨੀਆ ਦੀ ਸਹੀਤਾ ਆਡੀਓ ਕੁਆਲਟੀ, ਅੱਖਰਾਂ ਅਤੇ ਭਾਸ਼ਾ ਉੱਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ; ਗੂੰਜ ਜਾਂ ਅੱਖਰਾਂ ਨਾਲ ਰਿਕਾਰਡਿੰਗ ਲਈ, ਕੁਝ ਪ੍ਰਤੀਸ਼ਤ ਅੰਕਾਂ ਦੀ ਵੱਧ WER ਦੀ ਉਮੀਦ ਕਰੋ।
Distil-Whisper STT.ai ਦੇ ਮੁਫਤ ਪੱਧਰ ਉੱਤੇ ਚੱਲਦਾ ਹੈ - ਹਰੇਕ ਝਲਕਾਰਾ 600 ਮਿੰਟ/ਮਹੀਨਾ ਮੁਫਤ ਵਿੱਚ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਭੁਗਤਾਨ ਕੀਤੇ ਪਲਾਨ ਲੰਬੇ ਪ੍ਰਤੀ-ਫਾਇਲ ਸੀਮਾਵਾਂ, ਨਿੱਜੀ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਅਤੇ ਤਰਜੀਹ ਕਤਾਰਬੱਧਤਾ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ।
Distil-Whisper ਨੂੰ MIT, ਇੱਕ ਖੋਲ੍ਹੇ ਸਰੋਤ ਲਾਈਸੈਂਸ ਅਧੀਨ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਹੈ । ਤੁਸੀਂ ਆਪਣੇ ਹਾਰਡਵੇਅਰ ਉੱਤੇ Distil-Whisper ਨੂੰ ਆਪ ਹੀ ਹੋਸਟ ਕਰ ਸਕਦੇ ਹੋ ਜਾਂ ਸਾਡਾ ਹੋਸਟ ਵਰਜਨ ਵਰਤ ਸਕਦੇ ਹੋ — ਦੋਵੇਂ ਵਪਾਰਕ ਤੌਰ ਉੱਤੇ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ ।
Distil-Whisper 99 ਭਾਸ਼ਾਵਾਂ ਲਈ ਸਹਾਇਕ ਹੈ। ਆਟੋ-ਖੋਜ ਬਹੁਤੇ ਆਡੀਓ ਲਈ ਸਹੀ ਭਾਸ਼ਾ ਚੁਣਦੀ ਹੈ; ਤੁਸੀਂ ਇਸ ਨੂੰ ਛੋਟੀ ਸਹੀਤਾ ਲਈ ਦਸਤੀ ਵੀ ਦੇ ਸਕਦੇ ਹੋ।
Distil-Whisper ਸਾਡੇ GPUs ਉੱਤੇ 48.0x ਰੀਅਲ-ਟਾਈਮ ਉੱਤੇ ਆਡੀਓ ਪਰੋਸੈਸ ਕਰਦਾ ਹੈ। 1 ਘੰਟੇ ਦੀ ਆਡੀਓ ਫਾਇਲ 1 ਮਿੰਟਾਂ ਵਿੱਚ ਖਤਮ ਹੁੰਦੀ ਹੈ; ਲੰਬੀਆਂ ਫਾਇਲਾਂ ਕਤਾਰ ਵਿੱਚ ਲੱਗੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ ਅਤੇ ਜਦੋਂ ਖਤਮ ਹੁੰਦੀਆਂ ਹਨ ਤਾਂ ਈ-ਮੇਲ ਰਾਹੀਂ ਸੂਚਿਤ ਹੁੰਦੀਆਂ ਹਨ।
Distil-Whisper ਵਿੱਚ 756M ਪੈਰਾਮੀਟਰ ਹਨ। ਵੱਡੇ ਮਾਡਲ ਵਧੇਰੇ ਸਹੀ ਪਰ ਹੌਲੀ ਹੁੰਦੇ ਹਨ; STT.ai GPU ਉੱਤੇ Distil-Whisper ਹੋਸਟ ਕਰਦਾ ਹੈ ਤਾਂ ਕਿ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਤੁਹਾਡੀ ਕਲਾਇਟ-ਸਾਈਡ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦੀ ਹੈ।
Distil-Whisper ਹਰ ਫਾਰਮੈਟ ਨੂੰ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ STT.ai ਸਹਿਯੋਗੀ ਹੈ - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, ਅਤੇ ਹੋਰ। ਆਉਟਪੁੱਟ TXT, SRT, VTT, DOCX, JSON, ਜਾਂ PDF ਦੇ ਰੂਪ ਵਿੱਚ ਹੈ।
ਹਾਂ । ਸਪੀਕਰ ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਹਰੇਕ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਲਈ Distil-Whisper ਦੇ ਨਾਲ ਚੱਲਦਾ ਹੈ — ਹਰੇਕ ਸਪੀਕਰ ਨੂੰ ਲੇਬਲ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਤੁਸੀਂ ਬਾਅਦ ਵਿੱਚ ਐਡੀਟਰ ਵਿੱਚ ਉਨ੍ਹਾਂ ਦਾ ਨਾਂ ਬਦਲ ਸਕਦੇ ਹੋ ।
ਹਾਂ । Distil-Whisper ਸਾਡੇ ਪਰਬੰਧਿਤ ਵਾਤਾਵਰਣ ਵਿੱਚ ਚੱਲਦਾ ਹੈ — ਆਡੀਓ ਡਿਫਾਲਟ ਤੌਰ ਤੇ ਪਰੋਸੈੱਸ ਅਤੇ ਹਟਾਏ ਜਾਂਦੇ ਹਨ ਅਤੇ ਬਿਨਾਂ ਸਪੱਸ਼ਟ ਚੋਣ-ਇਨ ਦੇ ਟਰੇਨਿੰਗ ਲਈ ਕਦੇ ਨਹੀਂ ਵਰਤੇ ਜਾਂਦੇ ਹਨ । ਪਰੋ ਪਲਾਨ ਠੀਕ ਸਮੇਂ ਉੱਤੇ ਟਰਾਂਸਕਰੀਪਟ ਲਈ ਕਲਾਂਇਟ-ਸਾਈਡ ਇੰਕ੍ਰਿਪਸ਼ਨ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ ।
ਇੱਕੋ ਆਡੀਓ ਉੱਤੇ ਕਿਸੇ ਹੋਰ ਸਹਾਇਕ ਮਾਡਲ ਨਾਲ Distil-Whisper ਚਲਾਉਣ ਲਈ compare-stt ਟੂਲ ਵਰਤੋਂ - ਤੁਸੀਂ WER, ਸੈਗਮੈਂਟ ਗਿਣਤੀ, ਸਪੀਕਰ ਲੇਬਲ ਅਤੇ ਭਰੋਸੇਯੋਗ ਸਕੋਰ ਨੂੰ ਪਾਸੇ-ਪਾਸੇ ਵੇਖੋਗੇ। Distil-Whisper ਵਿਰੁੱਧ Whisper Large V3 ਤੁਲਨਾ ਸਭ ਤੋਂ ਵੱਧ ਚਲਾਈ ਜਾਂਦੀ ਹੈ।
ਹਾਂ। /v1/transcribe ਅੰਤ-ਬਿੱਟ ਉੱਤੇ ਮਾਡਲ ਪੈਰਾਮੀਟਰ ਵਜੋਂ "distil-whisper" ਦਿਓ। Python ਅਤੇ Node.js SDKs ਵਿੱਚ Distil-Whisper ਉਦਾਹਰਣ ਸ਼ਾਮਲ ਹਨ। ਮੁਫਤ API ਟਾਇਰ ਵਿੱਚ 100 ਮਿੰਟ/ਮਹੀਨਾ ਸ਼ਾਮਲ ਹੈ।
ਹਾਂ, ਕਿਉਂਕਿ Distil-Whisper MIT-ਲਾਈਸੈਂਸਡ ਹੈ, ਤੁਸੀਂ ਇਸ ਨੂੰ ਆਪ ਹੀ ਹੋਸਟ ਕਰ ਸਕਦੇ ਹੋ। STT.ai ਦਾ ਓਪਨ-ਸੋਰਸ ਪੇਜ਼ ਪ੍ਰੋਜੈਕਟ ਰੈਪੋ ਅਤੇ ਭਾਰ ਦੀ ਸੂਚੀ ਦਿੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਉਤਪਾਦਨ ਟੀਮਾਂ GPU ਖਰੀਦ, ਮਾਡਲ ਸਵਾਪ ਅਤੇ ਓਪਸ ਛੱਡਣ ਲਈ ਸਾਡੇ ਹੋਸਟ ਵਰਜਨ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ।