Model	WER	Speed	Jazyky	Nejlepší pro
STT.ai Enhanced	3.2%	160.0x	100	STT.ai's flagship speech-to-text model with best-in-class accuracy and speed. Optimized …
Whisper Large V3	4.2%	8.0x	99	OpenAI's largest and most accurate Whisper model. Excellent multilingual support …
Whisper Turbo	5.1%	32.0x	99	OpenAI's speed-optimized Whisper variant. 4x faster than Large V3 with …
NVIDIA Canary	3.5%	45.0x	4	NVIDIA's multi-task ASR model with top-tier accuracy on English. Built …
Moonshine	7.8%	80.0x	1	Ultra-lightweight ASR model designed for edge devices. Runs on Raspberry …
NVIDIA Parakeet	3.0%	55.0x	1	NVIDIA's CTC-based English ASR model. One of the most accurate …
SenseVoice	5.5%	50.0x	50	Multilingual speech understanding model with emotion recognition and audio event …
Distil-Whisper	5.8%	48.0x	99	Distilled version of Whisper Large V3. 6x faster with 49% …
Vosk	12.0%	100.0x	20	Lightweight offline speech recognition. Works without internet, ideal for privacy-sensitive …

Co je WER (Word Error Rate)?

Word Error Rate (WER) je standardní metrika pro měření přesnosti rozpoznávání řeči. Vypočítává procento slov v přepisu, který se liší od reference. WER 5% znamená zhruba 5 ze všech 100 slov obsahují chybu. Nižší je lepší.

Profesionální lidé transkripci obvykle dosáhnout WER 4-5%. Nejlepší modely AI nyní odpovídají nebo se blíží lidské úrovni přesnosti na čistém zvuku.

Nejste si jisti, který model použít?

Vyzkoušejte si náš výchozí Whisper Large V3 Turbo poskytuje nejlepší rovnováhu rychlosti a přesnosti. Volno pro spuštění, není nutné se přihlásit.

Začněte přepisovat zdarma