Model	WER	Speed	Ngôn ngữ	Tốt nhất cho
STT.ai Enhanced	3.2%	160.0x	100	STT.ai's flagship speech-to-text model with best-in-class accuracy and speed. Optimized …
Whisper Large V3	4.2%	8.0x	99	OpenAI's largest and most accurate Whisper model. Excellent multilingual support …
Whisper Turbo	5.1%	32.0x	99	OpenAI's speed-optimized Whisper variant. 4x faster than Large V3 with …
NVIDIA Canary	3.5%	45.0x	4	NVIDIA's multi-task ASR model with top-tier accuracy on English. Built …
Moonshine	7.8%	80.0x	1	Ultra-lightweight ASR model designed for edge devices. Runs on Raspberry …
NVIDIA Parakeet	3.0%	55.0x	1	NVIDIA's CTC-based English ASR model. One of the most accurate …
SenseVoice	5.5%	50.0x	50	Multilingual speech understanding model with emotion recognition and audio event …
Distil-Whisper	5.8%	48.0x	99	Distilled version of Whisper Large V3. 6x faster with 49% …
Vosk	12.0%	100.0x	20	Lightweight offline speech recognition. Works without internet, ideal for privacy-sensitive …

WER là gì (tỷ lệ lỗi từ)?

Tỷ lệ lỗi từ (WER) là ước lượng chuẩn để đo độ chính xác nhận dạng giọng nói. Nó tính toán phần trăm từ trong bản ghi khác với tham chiếu. WER là 5% có nghĩa là khoảng 5 trong mỗi 100 từ có lỗi. Thấp hơn thì tốt hơn.

Các phiên dịch viên chuyên nghiệp thường đạt được WER 4-5%. Các mô hình AI tốt nhất hiện nay tương đương hoặc gần với độ chính xác của con người trên âm thanh sạch.

Không chắc nên dùng mẫu nào?

Thử mặc định của chúng tôi — Whisper Large V3 Turbo cung cấp sự cân bằng tốt nhất giữa tốc độ và chính xác. Miễn phí để bắt đầu, không cần đăng ký.

Bắt đầu phiên dịch miễn phí