English Transcription
Convert English (English) audio to text with AI. Fast, accurate, 10+ models.
Best Models for English
| Model | Provider | WER | Speed | |
|---|---|---|---|---|
| STT.ai Enhanced Best | STT.ai | 3.2% | Try it | |
| Whisper Large V3 | OpenAI | 4.2% | Try it | |
| Whisper Turbo | OpenAI | 5.1% | Try it | |
| NVIDIA Canary | NVIDIA | 3.5% | Try it | |
| Moonshine | Useful Sensors | 7.8% | Try it | |
| NVIDIA Parakeet | NVIDIA | 3.0% | Try it | |
| SenseVoice | FunAudioLLM | 5.5% | Try it | |
| Distil-Whisper | Hugging Face | 5.8% | Try it | |
| Vosk | Alpha Cephei | 12.0% | Try it |
در مورد English Transcription
English is the most widely spoken language globally and the dominant language for business, technology, and international communication. STT.ai provides industry-leading English speech recognition across all major accents including American, British, Australian, and Indian English.
STT.ai يه جورايي پيشرفته هست English چه شما نیاز به رونوشت مصاحبه، سخنرانی، پادکست، یا جلسه در زبان انگلیسی داشته باشید، Englishپلتفرم ما به طور خودکار زبان رو تشخیص میده و بهترین مدل رو برای بهترین دقت انتخاب میکنه
چقدر دقیق است English رونوشت؟
دقت برای English رونوشت به کیفیت صدا، شفافیت بلندگو، نویز پس زمینه و مدلی که انتخاب میکنید بستگی دارد. در صدای تمیز با یک بلندگو، بهترین مدلهای ما به نرخ خطای کلمه (WER) کمتر از ۶٪ برای English -در حال نزديک شدن به دقت سطح انسان.
براي بهترين نتيجه با English صدا، ما توصیه می کنیم:
- پاک کردن صدا -- به حداقل رساندن نویز پس زمینه و استفاده از میکروفون خوب
- بخشهای بلندگوهای تک -- فعالسازی نوشتار بلندگو برای ضبط چند بلندگو
- مدل درست رو انتخاب کن -- NVIDIA Canary پایینترین WER را برای زبانهای پشتیبانی شده ارائه میدهد، در حالی که Whisper Large V3 گستردهترین پوشش زبان را ارائه میدهد
- مشخص کردن زبان -- در حالی که تشخیص خودکار خوب کار میکند ، انتخاب دستی English می تواند دقت را کمی بهبود بخشد
قالبهای صادرات برای English رونوشت
بعد از اينکه رونوشت رو نوشتم English صوت، نتیجه را در یکی از این قالبها بارگیری کنید:
TXT
رونوشت متن ساده
SRT
زیرنویس با مهر زمان
VTT
زیرنویس ویدئوهای وب
DOCX
سند Word
JSON
دادههای ساختاری با مهرهای زمانی
PDF
سند آماده چاپ
پرسشهای متداول
Upload an audio or video file containing English (English) to STT.ai or paste a URL. Select a model that supports English — for best results pick the one with the lowest WER on the table above — and click Transcribe.
Yes. STT.ai gives every visitor 600 free minutes/month, which includes English (1.5 billion speakers worldwide). No signup required for your first file. Paid plans starting at $5/month unlock longer files and private transcripts.
دقت ۸۸۰۰۰ در صدای تمیز با بهترین مدلهای ما به ۹۳- ۹۶٪ میرسد. اعداد، اسامی خاص و اشکال خمیده همگی مدیریت میشوند. صدای تمیز با کمترین نویز پس زمینه بهترین نتایج را تولید میکند.
Whisper Large V3 دارای پوشش گستردهترین English است؛ NVIDIA Canary دارای پوشش کمترین WER در انواع پشتیبانی شده English است؛ STT.ai Enhanced هر دو را برای برنامههای پرداختی متحد میکند.
بله. خروجی ۸۸۰۰۰ شامل نشانه گذاری) نقطه ، کمان ، علامت سؤال (و تنظیم مناسب است. اعداد و عنوانها از قواعد ۸۸۰۰۰ پیروی میکنند. ویرایشگر رونوشت به شما اجازه میدهد که نشانه گذاری را دستی تنظیم کنید.
بله. نوشتارگویی زبانناشناس است و در ۸۸۰۰۰ به همان شکلی که در انگلیسی کار میکند ، کار میکند. هر گوینده برچسبگذاری میشود) گوینده ۱ ، گوینده ۲ ،... (و میتوانید بعد از رونوشت ، آنها را در ویرایشگر تغییر نام دهید.
یک فایل صوتی یک ساعته ۸۸۰۰۰ معمولاً ۲ تا ۳ دقیقه با سریعترین مدلهای ما و کمی بیشتر با مدلهای با دقت بالا طول میکشد.
۸۸۰۰۰ فایل در MP3، WAV، M4A، FLAC، OGG، MP4، MKV، MOV، WebM، AVI و ۱۰+ فرمت دیگر همه کار میکنند. خروجی به TXT، SRT، VTT، DOCX، JSON و PDF - همه با ۸۸۰۰۰ متن سالم.
بله. ۸۸۰۰۰ پرونده صوتی به صورت پیشفرض پردازش و حذف میشوند. برنامههای حرفهای رمزگذاری سمت کارگزار را اضافه میکنند — حتی اگر پایگاه داده ما نقض شود، رونوشتهای شما بدون کلید شما قابل خواندن نیستند. دادههای ۸۸۰۰۰ هیچگاه بدون انتخاب صریح برای آموزش مدل استفاده نمیشود.
بله. رونوشت را به صورت SRT یا VTT صادر کنید — هر دو با یوتیوب، ویمو، تیک تاک و تمام پلتفرمهای ویدئویی اصلی کار میکنند. ابزار زیرنویس سوزاندن آنها را به عنوان زیرنویس سخت بر روی ویدئو قرار میدهد.
بله. بعد از رونوشت ۸۸۰۰۰، ابزار ترجمه زیرنویس میتواند SRT/VTT را به هر یک از ۱۰۰ زبان هدف ترجمه کند. اگر محتوای ۸۸۰۰۰ شما به زیرنویس برای مخاطبان گستردهتر نیاز داشته باشد، مفید است.
بله. API REST از طریق پارامتر زبان از English پشتیبانی میکند (خودکاریابی نیز در دسترس است). SDKهای پایتون و Node.js به شما اجازه میدهد که صوت English را با مهرهای زمانی کامل و برچسبهای بلندگو به صورت دسته ای رونویسی کنید.
برای ۸۸۰۰۰، بزرگترین متغیرهای دقت، نویز پس زمینه، بلندگوهای همپوشانی، و شدت لهجه هستند. از یک میکروفون خوب استفاده کنید، هر زمان که ممکن است بلندگوهای جداگانه را استفاده کنید، و یک مدل آموزش دیده در لهجه مربوطه را انتخاب کنید.