உடன் படியெடு Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
பற்றி Distil-Whisper
Distil-Whisper is a distilled version of Whisper created by Hugging Face. It reduces the model size by 49% and achieves 6x faster inference while maintaining within 1% WER of the original Whisper Large V2 on out-of-distribution evaluation sets.
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
அடிக்கடி கேக்கப்படும் கேள்விகள்
Distil-Whisper என்பது Hugging Face இல் இருந்து ஒரு உரையாடல்-உரை மாதிரியாகும். STT.ai Distil-Whisper ஐ எங்கள் GPU கட்டமைப்பில் சேமிக்கிறது, எனவே நீங்கள் உங்கள் சொந்த வன்பொருளை வழங்காமல் அதைப் பயன்படுத்தலாம் - ஒலி அல்லது வீடியோவை ஏற்றி Distil-Whisper ஐ மாதிரி தேர்விலிருந்து தேர்ந்தெடுக்கவும்.
தரமான அடிப்படைகளில், Distil-Whisper சுமார் 5.8% வார்த்தையின் தவறு விகிதத்தை அடைகிறது. உண்மையான உலகத்தின் துல்லியமானது ஒலி தரம், உச்சரிப்பு மற்றும் மொழியைப் பொறுத்து உள்ளது; சத்தமான அல்லது உச்சரிக்கப்பட்ட பதிவுகளுக்கு, சில சதவீத புள்ளிகள் அதிகமான WER ஐ எதிர்பார்க்கவும்.
Distil-Whisper STT.ai ன் இலவச நிலையிலேயே இயங்குகிறது - ஒவ்வொரு பார்வையாளரும் 600 நிமிடங்கள்/மாதத்திற்கு எந்த செலவும் இல்லாமல் பெறுகிறார். கட்டணம் செலுத்தும் திட்டங்கள் கோப்புக்கு அதிக அளவு வரம்புகளை, தனிப்பட்ட நகலெடுப்புகளை, மற்றும் முன்னுரிமை வரிசையை சேர்க்கின்றன.
Distil-Whisper MIT கீழ் வெளியிடப்பட்டுள்ளது, ஒரு அனுமதிக்கக்கூடிய திறந்த மூல உரிமம். நீங்கள் உங்கள் சொந்த வன்பொருளில் Distil-Whisper ஐ தாங்களே சேமிக்கலாம் அல்லது எங்கள் சேமிக்கப்பட்ட பதிப்பைப் பயன்படுத்தலாம் - இரண்டும் வணிக ரீதியாக பயன்படுத்தக்கூடியவை.
Distil-Whisper 99 மொழிகளுக்கு ஆதரவு அளிக்கிறது. தானாகவே கண்டறிதல் பெரும்பாலான ஒலிகளுக்கு சரியான மொழியை தேர்ந்தெடுக்கிறது; நீங்கள் அதை கைமுறையாக சிறிய துல்லியமான உயர்விற்கு குறிப்பிடலாம்.
Distil-Whisper ஒலியை 48.0x உண்மையான நேரத்தில் எங்கள் GPUs களில் செயலாக்குகிறது. 1 மணி நேர ஒலி கோப்பு 1 நிமிடங்களில் முடிகிறது; நீண்ட கோப்புகள் வரிசைப்படுத்தப்பட்டு முடிந்தவுடன் மின்னஞ்சல் மூலம் அறிவிக்கப்படும்.
Distil-Whisper க்கு 756M அளவுருக்கள் உள்ளன. பெரிய மாதிரிகள் சரியானவை ஆனால் மெதுவாக இருக்கும்; STT.ai Distil-Whisper ஐ ஜிபியுவில் கொண்டுள்ளது எனவே அளவுருக்கள் கணக்கீடு உங்கள் வாடிக்கையாளர் பக்க செயல்திறனை பாதிக்காது.
Distil-Whisper STT.ai ஆதரவுகளை அனைத்து வடிவங்களிலும் ஏற்றுக்கொள்ளும் — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, மற்றும் பிற. வெளியீடு TXT, SRT, VTT, DOCX, JSON, அல்லது PDF.
Yes. Speaker diarization runs alongside Distil-Whisper for every transcription — each speaker is labeled and you can rename them in the editor afterwards.
ஆமாம். Distil-Whisper கள் நம் நிர்வகிக்கப்பட்ட சூழலில் இயங்குகின்றன - ஒலி இயங்குகிறது மற்றும் முன்னிருப்பாக நீக்கப்படுகிறது மற்றும் தெளிவான தேர்வு இல்லாமல் பயிற்சிக்கு பயன்படுத்தப்படுவதில்லை. பிரோ திட்டங்கள் நிறுத்தப்பட்டுள்ள பரிமாற்றங்களுக்கு வாடிக்கையாளர்-பக்க மறையாக்கத்தை சேர்க்கின்றன.
ஒரே ஒலியில் Distil-Whisper ஐ மற்ற ஆதரவு அளிக்கப்பட்ட மாதிரிகளுக்கு எதிராக இயக்க comparison-stt கருவியை பயன்படுத்தவும் - நீங்கள் WER, பிரிவு எண்ணிக்கை, ஒலிபெருக்கி லேபிள்கள், மற்றும் நம்பகத்தன்மை மதிப்பெண்களை பக்கவாட்டில் காணலாம். Distil-Whisper vs Whisper Large V3 ஒப்பீடு மிகவும் பொதுவாக இயக்கப்படுகிறது.
ஆம். /v1/transcribe முடிவில் "distil-whisper" ஐ மாதிரி அளவுருவாக குறிப்பிடவும். பைதான் மற்றும் நோட். ஜேஎஸ் எஸ்டிகேக்களில் Distil-Whisper உதாரணங்கள் உள்ளன. இலவச API நிலை 100 நிமிடங்கள் / மாதம் உள்ளன.
ஆம். Distil-Whisper MIT- உரிமம் பெற்றது என்பதால், நீங்கள் அதை தாங்களே நடத்தலாம். STT.ai ன் திறந்த மூலப் பக்கத்தில் திட்டத்தின் ரேபோ மற்றும் எடைகள் பட்டியலிடப்பட்டுள்ளன. பெரும்பாலான தயாரிப்புக் குழுக்கள் எங்கள் நடத்தப்பட்ட பதிப்பைப் பயன்படுத்தி GPU கொள்முதல், மாதிரி மாற்றங்கள் மற்றும் செயல்பாடுகளைத் தவறவிடுகின்றன.