দিয়ে ট্রান্সক্রাইব করুন Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
সম্পর্কে Distil-Whisper
Distil-Whisper is a distilled version of Whisper created by Hugging Face. It reduces the model size by 49% and achieves 6x faster inference while maintaining within 1% WER of the original Whisper Large V2 on out-of-distribution evaluation sets.
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
প্রায়শই জিজ্ঞাসিত প্রশ্ন
Distil-Whisper is a speech-to-text model by Hugging Face. STT.ai hosts Distil-Whisper on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick Distil-Whisper from the model picker.
প্রমিত বেঞ্চমার্কে, ৮৮০০০ এর শব্দের ভুলের হার প্রায় ৮৮০০১%। বাস্তব বিশ্বের সঠিকতা অডিও গুণমান, উচ্চারণ এবং ভাষার উপর নির্ভর করে; ধ্বনি বা উচ্চারিত রেকর্ডিংয়ের জন্য, কিছু শতাংশ উচ্চতর WER আশা করা যেতে পারে।
Distil-Whisper STT.ai এর বিনামূল্যে স্তরে চলছে - প্রতিটি ভিজিটর600 মিনিট / মাস কোন খরচ ছাড়া পায়। পে-প্ল্যানে প্রতি ফাইল সীমাবদ্ধতা, ব্যক্তিগত ট্রান্সক্রিপশন এবং অগ্রাধিকার লাইন যোগ করা হয়।
৮৮০০০ প্রকাশিত হয়েছে ৮৮০০১ লাইসেন্সের অধীনে, যা একটি উন্মুক্ত সোর্স লাইসেন্স। আপনি আপনার নিজের হার্ডওয়্যারের উপর ৮৮০০০-এর স্ব-হোস্টিং করতে পারেন অথবা আমাদের হোস্ট করা সংস্করণ ব্যবহার করতে পারেন - উভয়ই বাণিজ্যিকভাবে ব্যবহারযোগ্য।
Distil-Whisper 99 ভাষা সমর্থন করে। অধিকাংশ অডিও ফাইলের জন্য স্বয়ংক্রিয়ভাবে সঠিক ভাষা নির্ধারণ করা হয়; আপনি এটি স্বয়ংক্রিয়ভাবে নির্ধারণ করেও সঠিকতা বাড়াতে পারেন।
Distil-Whisper আমাদের GPU-এর উপর প্রায় 48.0x বাস্তব-সময়ে অডিও প্রসেস করে। ১ ঘন্টার অডিও ফাইল ৮৮০০০২ মিনিটের মধ্যে শেষ হয়; দীর্ঘ ফাইলগুলোর জন্য অপেক্ষা করা হবে এবং শেষ হলে ই-মেইল দ্বারা জানাবে।
Distil-Whisper এর 756M পরামিতি রয়েছে। বড় মডেলগুলো আরও সঠিক কিন্তু ধীর; STT.ai GPU-তে Distil-Whisper হোস্ট করে, ফলে পরামিতি সংখ্যা আপনার ক্লায়েন্ট-সাইড পারফরম্যান্সে প্রভাব ফেলে না।
Distil-Whisper accepts every format STT.ai supports — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and others. Output as TXT, SRT, VTT, DOCX, JSON, or PDF.
হ্যাঁ, প্রত্যেকটি অনুবাদের জন্য স্পিকার ডায়ারাইজেশন ৮৮০০০ এর সাথে চলছে - প্রত্যেকটি স্পিকার লেবেল করা আছে এবং আপনি পরে সম্পাদকে তাদের নাম পরিবর্তন করতে পারেন।
হ্যাঁ। ৮৮০০০০ আমাদের পরিচালিত পরিবেশে চলছে - অডিও ডিফল্টভাবে প্রক্রিয়াজাত করা হয় এবং মুছে ফেলা হয় এবং স্পষ্টভাবে অটো-ইন না করে প্রশিক্ষণের জন্য কখনও ব্যবহার করা হয় না। প্রফেশনাল প্ল্যানে ক্লায়েন্ট-সাইড এনক্রিপশন যোগ করা হয় নিষ্ক্রিয় ট্রান্সক্রিপশনের জন্য।
একই অডিওতে অন্য যেকোন সমর্থিত মডেলের সাথে ৮৮০০০ চালানোর জন্য compare-stt টুল ব্যবহার করুন — আপনি WER, সেগমেন্ট সংখ্যা, স্পিকার লেবেল এবং বিশ্বাসযোগ্যতা স্কোর পাশে পাশে দেখতে পাবেন। ৮৮০০০ বনাম Whisper Large V3 তুলনা সবচেয়ে সাধারণভাবে চালানো হয়।
হ্যাঁ। /v1/transcribe এন্ডপয়েন্টে মডেল পরামিতি হিসাবে "distil-whisper" উল্লেখ করুন। Python এবং Node.js SDK-এ Distil-Whisper উদাহরণ অন্তর্ভুক্ত রয়েছে। বিনামূল্যে API স্তরে ১০০ মিনিট/মাস অন্তর্ভুক্ত রয়েছে।
হ্যাঁ। যেহেতু Distil-Whisper MIT-লাইসেন্সপ্রাপ্ত, আপনি এটি স্ব-হোস্ট করতে পারেন। STT.ai এর উন্মুক্ত উৎস পৃষ্ঠা প্রকল্পের রেপো এবং ওজনের তালিকা প্রদান করে। বেশিরভাগ উৎপাদন দল GPU ক্রয়, মডেল স্ব্যাপ এবং অপস ছাড়তে আমাদের হোস্ট করা সংস্করণ ব্যবহার করে।