Phiên âm với Whisper Large V3
4.2%
WER
99
Languages
8.0x
Speed
MIT
License
Giới thiệu Whisper Large V3
Whisper Large V3 is OpenAI's flagship open-source speech recognition model. With 1.55 billion parameters, it offers exceptional accuracy across 99 languages. It uses a transformer encoder-decoder architecture trained on 680,000 hours of multilingual audio data.
Model Info
- ProviderOpenAI
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Câu hỏi thường gặp
STT.ai host Whisper Large V3 on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick Whisper Large V3 from the model picker.
Độ chính xác thực tế phụ thuộc vào chất lượng âm thanh, giọng nói và ngôn ngữ; đối với các bản ghi âm ồn ào hoặc có giọng nói, chờ đợi một vài điểm phần trăm cao hơn WER.
Whisper Large V3 chạy trên tầng miễn phí của STT.ai - mỗi khách truy cập có 600 phút / tháng miễn phí.
Whisper Large V3 được phát hành dưới giấy phép mã nguồn mở MIT. Bạn có thể tự lưu trữ Whisper Large V3 trên phần cứng của mình hoặc sử dụng phiên bản lưu trữ của chúng tôi — cả hai đều có thể sử dụng thương mại.
Whisper Large V3 hỗ trợ 99 ngôn ngữ. Tự động phát hiện chọn ngôn ngữ đúng cho hầu hết âm thanh; bạn cũng có thể chỉ định nó bằng tay để tăng độ chính xác một chút.
Whisper Large V3 xử lý âm thanh với tốc độ khoảng 8.0x thời gian thực trên GPU của chúng tôi. Một tập tin âm thanh 1 giờ hoàn thành trong 7 phút; tập tin dài hơn xếp hàng và thông báo bằng email khi hoàn thành.
Whisper Large V3 có các tham số 1.55B. Các mẫu lớn có xu hướng chính xác hơn nhưng chậm hơn; STT.ai host Whisper Large V3 trên GPU vì vậy số lượng tham số không ảnh hưởng đến hiệu suất bên máy khách.
Whisper Large V3 chấp nhận mọi định dạng STT.ai hỗ trợ — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, và những thứ khác.
Vâng. Tính toán các người nói chạy cùng với Whisper Large V3 cho mỗi bản phiên âm — mỗi người nói được đánh dấu và bạn có thể đổi tên chúng trong trình biên tập sau đó.
Có. Whisper Large V3 chạy trong môi trường quản lý của chúng tôi — âm thanh được xử lý và xóa theo mặc định và không bao giờ được sử dụng cho huấn luyện mà không có sự đồng ý rõ ràng. Các kế hoạch Pro thêm mã hóa bên khách hàng cho các bản ghi khi nghỉ.
Dùng công cụ compare-stt để chạy Whisper Large V3 so với bất kỳ mô hình nào được hỗ trợ trên cùng một âm thanh — bạn sẽ thấy WER, số phân đoạn, nhãn loa, và điểm tin cậy cạnh nhau.
Có. Chỉ ra "whisper-large-v3" như tham số mô hình trên điểm kết thúc /v1/transcribe. Python và Node.js SDK bao gồm ví dụ Whisper Large V3. Lớp API miễn phí bao gồm 100 phút/tháng.
Vâng. Bởi vì Whisper Large V3 được cấp phép MIT, bạn có thể tự lưu trữ nó. Trang mã nguồn mở của STT.ai liệt kê dự án và trọng lượng. Hầu hết các nhóm sản xuất sử dụng phiên bản lưu trữ của chúng tôi để bỏ qua việc mua GPU, thay đổi mô hình và các hoạt động.