گزارش اشکال / درخواست ویژگی

رونوشت با Distil-Whisper

Name: Distil-Whisper
Author: Hugging Face

با صوت و ویدئوهای در دسترس عمومی کار می‌کند. محتوای محافظت شده با DRM پشتیبانی نمی‌شود.

ارتقا برای بهبودیافته

رونوشت خصوصی

گپ زدن با رونوشت

باز کردن قفل با Pro →

پروندۀ را اینجا بگذارید یا برای مرور کلیک کنید

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — تا ۲ گیگابایت

بارگذاری چند پروندۀ دسته با پرو

ارتقا برای بهبودیافته

رونوشت خصوصی

گپ زدن با رونوشت

باز کردن قفل با Pro →

ارتقا برای بهبودیافته

گفتار به متن در زمان واقعی. هوش مصنوعی خودکاراً در حین صحبت کردن شما را اصلاح می‌کند - دقت با صحبت طولانی تر بهبود می‌یابد.

ابتدا میکروفون خود را امتحان کنید

۱۰ دقیقه آزاد در روز 600 دقیقه رایگان با ثبت نام کارت اعتباري ندارم رمزگذاری شده

ثبت نام مجانی →

5.8%

WER

زبانها

48.0x

سرعت

MIT

مجوز

در مورد Distil-Whisper

Distil-Whisper یک نسخه تقطیر شده از Whisper است که توسط Hugging Face ایجاد شده‌است.این مدل اندازه را 49٪ کاهش می‌دهد و به استنتاج 6x سریع‌تر می‌رسد در حالی که در مجموعه‌های ارزیابی خارج از توزیع در حدود 1٪ WER از Whisper Large V2 اصلی حفظ می‌شود.

زبانهای پشتیبانی‌شده Distil-Whisper

انگلیسی

اسپانیایی

فرانسوی

آلمانی

چینی

ژاپنی

کره‌ای

پرتغالی

عربی

هندی

روسی

ایتالیایی

هلندی

ترکی استانبولی

لهستانی

سوئدی

اندونزیایی

تایلندی

ویتنامی

چکی

یونانی

رومانیایی

مجاری

عبری

دانمارکی

فنلاندی

نروژی

اوکراینی

مالایی

بنگالی

اطلاعات مدل

ارائه‌دهندهHugging Face
معماری-
مجوزMIT
به روزرسانیMar 2026

مدل‌های مرتبط

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

پرسشهای متداول

STT.ai میزبان Distil-Whisper در زیرساخت GPU ماست بنابراین می‌توانید بدون فراهم کردن سخت‌افزار خود از آن استفاده کنید - صدا یا ویدئو را بارگذاری کنید و Distil-Whisper را از گزینش مدل انتخاب کنید.

در استانداردهای استاندارد، ۸۸۰ در حدود ۸۸۰۰۰۱٪ نرخ خطای کلمه را بدست می‌آورد. دقت واقعی بستگی به کیفیت صدا، لهجه و زبان دارد؛ برای ضبط‌های پر سر و صدا یا لهجه، انتظار چند درصد بالاتر از WER را داشته باشید.

Distil-Whisper در لایه رایگان STT.ai اجرا می‌شود - هر بازدیدکننده ۶۰۰ دقیقه برای شروع بدون هزینه دریافت می‌کند.

شما می‌توانید ۸۸۰۰۰ را بر روی سخت‌افزار خود میزبانی کنید یا از نسخه میزبانی شده ما استفاده کنید - هر دو قابل استفاده تجاری هستند.

۸۸۰۰۰ از ۸۸۰۰۰۱ زبان پشتیبانی می‌کند. تشخیص خودکار زبان درست را برای بیشتر صداها انتخاب می‌کند؛ همچنین می‌توانید آن را برای یک بالا بردن دقت کوچک به صورت دستی مشخص کنید.

یک فایل صوتی یک ساعته در کمتر از ۸۸۰۰۰۲ دقیقه به پایان می‌رسد؛ فایل‌های طولانی‌تر در صف قرار می‌گیرند و هنگام انجام شدن توسط ایمیل اطلاع داده می‌شوند.

Distil-Whisper has 756M parameters. Larger models tend to be more accurate but slower; STT.ai hosts Distil-Whisper on GPU so the parameter count doesn't affect your client-side performance.

Distil-Whisper هر فرمتی را که STT.ai پشتیبانی می‌کند را می‌پذیرد - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI و دیگران.

بله. نوشتار شنونده در کنار Distil-Whisper برای هر رونوشت اجرا می شود — هر شنونده برچسب گذاری شده و می توانید بعداً آنها را در ویرایشگر تغییر نام دهید.

بله. ۸۸۰۰۰ در محیط مدیریت شده ما اجرا می‌شود — صدا به صورت پیش‌فرض پردازش و حذف می‌شود و هیچ‌گاه برای آموزش بدون انتخاب صریح استفاده نمی‌شود.

از ابزار compare-stt برای اجرا کردن ۸۸۰۰۰ در مقابل هر مدل پشتیبانی شده دیگری در همان صدا استفاده کنید - شما WER، شمار بخش‌ها، برچسب‌های بلندگو و امتیازات اعتماد را در کنار هم خواهید دید.

بله. "distil-whisper" را به عنوان پارامتر مدل در /v1/transcribe endpoint مشخص کنید. Python و Node.js SDK شامل نمونه‌های Distil-Whisper هستند. سطح API رایگان شامل ۱۰۰ دقیقه در ماه است.

بله. چون Distil-Whisper دارای مجوز MIT است، شما می‌توانید آن را خودتان میزبانی کنید. صفحهٔ منبع باز STT.ai فهرستی از پروژه و وزن‌ها را ارائه می‌دهد. بیشتر تیم‌های تولید از نسخهٔ میزبانی شده ما برای فراموش کردن خرید GPU، مبادلات مدل و عملیات استفاده می‌کنند.

رونوشت با Distil-Whisper

در مورد Distil-Whisper

زبانهای پشتیبانی‌شده Distil-Whisper

اطلاعات مدل

مدل‌های مرتبط

پرسشهای متداول

Distil-Whisper چيه؟

Distil-Whisper چقدر دقیقه؟

Distil-Whisper رایگانه؟

از چه مجوزي Distil-Whisper استفاده ميکنه؟

تعداد هشتاد و هشت هزار نفر را در بر می‌گیرد.

Distil-Whisper چقدر سريعه؟

مدل Distil-Whisper چقدر بزرگه؟

این تابع می‌تواند به صورت Distil-Whisper باشد.

Distil-Whisper چند تا بلندگو رو تشخیص ميده؟

اطلاعات من در زمان استفاده از Distil-Whisper خصوصی هست؟

این مدل در مقایسه با مدل‌های قبلی ۸۰۸۶، دارای ویژگی‌های بیشتری است.

میتونم از Distil-Whisper از طریق API استفاده کنم؟

مي تونم Distil-Whisper رو روي سرور خودم اجرا کنم؟