સાથે ટ્રાન્સક્રાઇબ Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
વિશે Distil-Whisper
Distil-Whisper is a distilled version of Whisper created by Hugging Face. It reduces the model size by 49% and achieves 6x faster inference while maintaining within 1% WER of the original Whisper Large V2 on out-of-distribution evaluation sets.
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
વારંવાર પૂછાતા પ્રશ્નો
Distil-Whisper is a speech-to-text model by Hugging Face. STT.ai hosts Distil-Whisper on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick Distil-Whisper from the model picker.
પ્રમાણભૂત બેન્ચમાર્ક પર, Distil-Whisper એ 5.8% શબ્દ ભૂલ દરને આસપાસ મેળવે છે. વાસ્તવિક-વિશ્વની ચોકસાઈ ઓડિયો ગુણવત્તા, ઉચ્ચારણ અને ભાષા પર આધારિત છે; ધુમાડાવાળા અથવા ઉચ્ચારણવાળા રેકોર્ડિંગ માટે, થોડા ટકા પોઇન્ટ્સ ઊંચા WER ની અપેક્ષા રાખો.
Distil-Whisper STT.ai ની મુક્ત સ્તરે ચાલે છે - દરેક મુલાકાતીને કોઈ ખર્ચ વગર 600 મિનિટ/મહિના મળે છે. ચૂકવેલ યોજનાઓ લાંબી ફાઇલ મર્યાદા, ખાનગી ટ્રાન્સક્રિપ્ટ્સ અને પ્રાથમિકતા કતાર લગાવવી ઉમેરે છે.
Distil-Whisper MIT ની નીચે બહાર પાડવામાં આવે છે, એક પરવાનગી આપતી ઓપન-સોર્સ લાઇસન્સ. તમે તમારા પોતાના હાર્ડવેરમાં Distil-Whisper ને સ્વયં-હોસ્ટ કરી શકો છો અથવા અમારી હોસ્ટ કરેલ આવૃત્તિનો ઉપયોગ કરી શકો છો - બંને વાણિજ્યિક રીતે ઉપયોગી છે.
Distil-Whisper 99 ભાષાઓને આધાર આપે છે. આપમેળે-શોધ એ મોટાભાગના ઓડિયો માટે સાચી ભાષા પસંદ કરે છે; તમે તેને નાની ચોકસાઈ માટે જાતે પણ સ્પષ્ટ કરી શકો છો.
Distil-Whisper ઓડિયો પ્રક્રિયાઓ અમારા GPUs પર 48.0x વાસ્તવિક સમય પર. 1-કલાકની ઓડિયો ફાઈલ 1 મિનિટમાં સમાપ્ત થાય છે; લાંબી ફાઈલો કતારમાં અને જ્યારે પૂર્ણ થાય ત્યારે ઈમેઈલ દ્વારા સૂચિત કરે છે.
Distil-Whisper પાસે 756M પરિમાણો છે. મોટા મોડેલો વધુ ચોક્કસ હોય છે પરંતુ ધીમા; STT.ai GPU પર Distil-Whisper યજમાન છે તેથી પરિમાણ ગણતરી તમારી ક્લાયન્ટ-સાઇડ કાર્યક્ષમતા અસર કરતી નથી.
Distil-Whisper દરેક બંધારણને સ્વીકારે છે કે જે STT.ai આધાર આપે છે — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, અને અન્ય. આઉટપુટ TXT, SRT, VTT, DOCX, JSON, અથવા PDF તરીકે.
હા. સ્પીકર ડેટાબેઝ દરેક અનુવાદ માટે Distil-Whisper ની સાથે ચાલે છે - દરેક સ્પીકર ને લેબલ કરેલ છે અને તમે પછી સંપાદકમાં તેનું નામ બદલી શકો છો.
હા. Distil-Whisper અમારા સંચાલિત વાતાવરણમાં ચાલે છે - ઓડિયો મૂળભૂત રીતે પ્રક્રિયા કરેલ છે અને કાઢી નાખવામાં આવે છે અને સ્પષ્ટ રીતે પસંદગી કર્યા વિના તાલીમ માટે ક્યારેય વપરાય નહિં. પ્રો યોજનાઓ અસ્થિર ટ્રાન્સક્રિપ્ટ્સ માટે ક્લાયન્ટ-સાઇડ એનક્રિપ્શન ઉમેરે છે.
Distil-Whisper ને કોઈપણ અન્ય આધારભૂત મોડેલ સામે એ જ ઓડિયો પર ચલાવવા માટે સરખામણી-stt સાધનનો ઉપયોગ કરો - તમે WER, સેગમેન્ટ ગણતરી, સ્પીકર લેબલ્સ, અને વિશ્વાસ સ્કોર બાજુ-બે-બાજુ જોશો. Distil-Whisper વિ Whisper Large V3 સરખામણી સૌથી સામાન્ય રીતે ચલાવે છે.
હા. /v1/transcribe અંતિમબિંદુ પર મોડેલ પરિમાણ તરીકે "distil-whisper" ને સ્પષ્ટ કરો. Python અને Node.js SDKs Distil-Whisper ઉદાહરણો સમાવે છે. મુક્ત API સ્તરમાં 100 મિનિટ/મહિના સમાવે છે.
હા. કારણ કે Distil-Whisper એ MIT-લાઇસન્સ થયેલ છે, તમે તેને સ્વયં-હોસ્ટ કરી શકો છો. STT.ai નું ઓપન-સોર્સ પાનું પ્રોજેક્ટ રેપો અને વજનોની યાદી કરે છે. મોટાભાગના ઉત્પાદન ટીમો GPU ખરીદી, મોડેલ સ્વેપ અને ઓપસને છોડવા માટે અમારી યજમાન આવૃત્તિ વાપરે છે.