ile Yazıya Dök Whisper Large V3
4.2%
WER
99
Languages
8.0x
Speed
MIT
License
Hakkında Whisper Large V3
Whisper Large V3 is OpenAI's flagship open-source speech recognition model. With 1.55 billion parameters, it offers exceptional accuracy across 99 languages. It uses a transformer encoder-decoder architecture trained on 680,000 hours of multilingual audio data.
Model Info
- ProviderOpenAI
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Sıkça Sorulan Sorular
Whisper Large V3, OpenAI tarafından geliştirilen bir konuşma-metin modelidir. STT.ai, Whisper Large V3'e GPU altyapımızda ev sahipliği yapmaktadır, böylece kendi donanımınızı sağlamadan kullanabilirsiniz - ses veya video yükleyin ve model seçicisinden Whisper Large V3'i seçin.
Standart referanslarda, Whisper Large V3 yaklaşık %4.2 kelime hata oranına ulaşmıştır.Gerçek dünya doğruluğu ses kalitesine, aksan ve dile bağlıdır; gürültülü veya aksanlı kayıtlar için, birkaç yüzde puan daha yüksek WER bekleyin.
Whisper Large V3 STT.ai'in ücretsiz seviyesinde çalışır - her ziyaretçi ücretsiz olarak ayda 600 dakika alır.Ödemeli planlar dosya başına daha uzun sınırlar, özel transkripsiyonlar ve öncelikli kuyruklar ekler.
Whisper Large V3, MIT, bir açık kaynak lisansı altında yayınlanmıştır. Whisper Large V3'i kendi donanımınızda kendi kendinize konumlandırabilir veya bizim konumlandırılmış sürümümüzü kullanabilirsiniz - her ikisi de ticari olarak kullanılabilir.
Whisper Large V3 99 dillerini destekler. Otomatik tespit çoğu ses için doğru dili seçer; küçük bir doğruluk artırımı için el ile de belirtebilirsiniz.
Whisper Large V3, GPU'larımızda yaklaşık 8.0x gerçek zamanlı ses işleme hızına sahiptir. 1 saatlik bir ses dosyası 7 dakikanın altında tamamlanır; daha uzun dosyalar kuyruğa alınır ve bittiğinde e-posta ile bildirim yapılır.
Whisper Large V3'in 1.55B parametresi vardır. Daha büyük modellerin daha doğru ama daha yavaş olmasına eğilim vardır; STT.ai GPU'da Whisper Large V3'e ev sahipliği yapar bu yüzden parametre sayısı istemci taraf performansınızı etkilemez.
Whisper Large V3, STT.ai'in desteklediği her biçimi kabul eder - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI ve diğerleri. Çıkış TXT, SRT, VTT, DOCX, JSON veya PDF olarak.
Evet, her bir transkrip için Whisper Large V3'in yanında konuşanların diarizasyonu çalışıyor. Her bir konuşan etiketleniyor ve sonradan editöründe isimlerini değiştirebilirsiniz.
Evet. Whisper Large V3 bizim yönetilen ortamımızda çalışıyor - ses işleme ve varsayılan olarak silinir ve açıkça opt-in olmadan eğitim için asla kullanılmaz. Pro planları, bekleyen transkripler için istemci tarafı şifreleme ekler.
Aynı ses üzerinde Whisper Large V3'i diğer desteklenen modellerle karşılaştırmak için compare-stt aracı kullanın - WER, segment sayısını, hoparlör etiketlerini ve güven puanlarını yan yana göreceksiniz. Whisper Large V3 vs Whisper Large V3 karşılaştırması en sık yapılandır.
Evet. /v1/transcribe son noktasında model parametresi olarak "whisper-large-v3"yi belirtin. Python ve Node.js SDK'ları Whisper Large V3 örneklerini içerir. Ücretsiz API katmanı ayda 100 dakika içerir.
Evet. Whisper Large V3 MIT lisanslı olduğu için kendine ev sahipliği yapabilirsin. STT.ai'in açık kaynak sayfası proje deposunu ve ağırlıklarını listeler. Çoğu üretim ekibi GPU satın alımı, model değişimi ve operasyonları atlamak için ev sahipliği yaptığımız sürümü kullanır.