AI Models
Choose Your Transcription Engine — Compare accuracy, speed, and language support across leading speech recognition models.
چگونه مدل درست را انتخاب کنیم
مدلهای رونویسی مختلف در زمینههای مختلف برتر هستند. از این راهنمای استفاده کنید تا بهترین مدل را برای نیازهای خود انتخاب کنید.
| Model | WER | Speed | زبانها | بهترین برای |
|---|---|---|---|---|
| STT.ai Enhanced | 3.2% | 160.0x | 100 | STT.ai's flagship speech-to-text model with best-in-class accuracy and speed. Optimized … |
| Whisper Large V3 | 4.2% | 8.0x | 99 | OpenAI's largest and most accurate Whisper model. Excellent multilingual support … |
| Whisper Turbo | 5.1% | 32.0x | 99 | OpenAI's speed-optimized Whisper variant. 4x faster than Large V3 with … |
| NVIDIA Canary | 3.5% | 45.0x | 4 | NVIDIA's multi-task ASR model with top-tier accuracy on English. Built … |
| Moonshine | 7.8% | 80.0x | 1 | Ultra-lightweight ASR model designed for edge devices. Runs on Raspberry … |
| NVIDIA Parakeet | 3.0% | 55.0x | 1 | NVIDIA's CTC-based English ASR model. One of the most accurate … |
| SenseVoice | 5.5% | 50.0x | 50 | Multilingual speech understanding model with emotion recognition and audio event … |
| Distil-Whisper | 5.8% | 48.0x | 99 | Distilled version of Whisper Large V3. 6x faster with 49% … |
| Vosk | 12.0% | 100.0x | 20 | Lightweight offline speech recognition. Works without internet, ideal for privacy-sensitive … |
WER (معیار خطای کلمه) چیست؟
نرخ خطای واژه) WER (یک معیار استاندارد برای اندازهگیری دقت تشخیص گفتار است. درصد واژههایی را که در یک رونوشت با مرجع تفاوت دارند ، محاسبه میکند. WER ۵٪ به این معنی است که تقریباً ۵ از هر ۱۰۰ واژه دارای خطا هستند. هرچه کمتر باشد بهتر است.
رونویسیهای انسانی حرفهای معمولاً به WER ۴–۵٪ میرسند، بهترین مدلهای هوش مصنوعی در حال حاضر با دقت سطح انسانی در صدای تمیز برابر یا نزدیک هستند.
مطمئن نيستي که از کدوم مدل استفاده کني؟
آزمایش پیشفرض ما — Whisper Large V3 Turbo بهترین تعادل سرعت و دقت را ارائه میدهد. شروع رایگان، ثبت نام لازم نیست.
شروع رونوشت آزاد