Phiên âm với STT.ai Enhanced
3.2%
WER
100
Languages
160.0x
Speed
Proprietary
License
Giới thiệu STT.ai Enhanced
STT.ai Enhanced is our most accurate and fastest speech-to-text model. Built on cutting-edge transformer architecture with proprietary optimizations, it delivers industry-leading word error rates across 100+ languages. Ideal for production transcription, real-time captioning, and enterprise applications.
✦ Unlock Enhanced Model
Get access to our most accurate model with any paid plan. 3.2% WER, 160x real-time speed, 100+ languages.
View Plans →Model Info
- ProviderSTT.ai
- Architecture-
- LicenseProprietary
- UpdatedMar 2026
Câu hỏi thường gặp
STT.ai host STT.ai Enhanced on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick STT.ai Enhanced from the model picker.
Độ chính xác thực tế phụ thuộc vào chất lượng âm thanh, giọng nói và ngôn ngữ; đối với các bản ghi âm ồn ào hoặc có giọng nói, chờ đợi một vài điểm phần trăm cao hơn WER.
STT.ai Enhanced là một mô hình cao cấp - bao gồm với bất kỳ kế hoạch STT.ai trả tiền nào bắt đầu từ $ 5 / tháng.
Phiên bản STT.ai của STT.ai xử lý việc tuân thủ giấy phép cho bạn vì vậy việc sử dụng thương mại thông qua dịch vụ của chúng tôi là đơn giản.
STT.ai Enhanced hỗ trợ 100 ngôn ngữ. Tự động phát hiện chọn ngôn ngữ đúng cho hầu hết âm thanh; bạn cũng có thể chỉ định nó bằng tay để tăng độ chính xác một chút.
STT.ai Enhanced xử lý âm thanh với tốc độ khoảng 160.0x thời gian thực trên GPU của chúng tôi. Một tập tin âm thanh 1 giờ hoàn thành trong 1 phút; tập tin dài hơn xếp hàng và thông báo bằng email khi hoàn thành.
STT.ai Enhanced có các tham số 1.5B. Các mẫu lớn có xu hướng chính xác hơn nhưng chậm hơn; STT.ai host STT.ai Enhanced trên GPU vì vậy số lượng tham số không ảnh hưởng đến hiệu suất bên máy khách.
STT.ai Enhanced chấp nhận mọi định dạng STT.ai hỗ trợ — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, và những thứ khác.
Vâng. Tính toán các người nói chạy cùng với STT.ai Enhanced cho mỗi bản phiên âm — mỗi người nói được đánh dấu và bạn có thể đổi tên chúng trong trình biên tập sau đó.
STT.ai Enhanced chạy trong cơ sở hạ tầng riêng của chúng tôi - âm thanh được xử lý và xóa theo mặc định. Pro + thêm mã hóa bên khách hàng vì vậy bản ghi không thể đọc được mà không có chìa khóa của bạn, và Private Cloud cho phép bạn tự chủ STT.ai Enhanced hoàn toàn trong VPC của riêng bạn.
Dùng công cụ compare-stt để chạy STT.ai Enhanced so với bất kỳ mô hình nào được hỗ trợ trên cùng một âm thanh — bạn sẽ thấy WER, số phân đoạn, nhãn loa, và điểm tin cậy cạnh nhau.
Có. Chỉ ra "stt-ai-enhanced" như tham số mô hình trên điểm kết thúc /v1/transcribe. Python và Node.js SDK bao gồm ví dụ STT.ai Enhanced. Lớp API miễn phí bao gồm 100 phút/tháng.
Giấy phép cho STT.ai Enhanced được đặt bởi STT.ai; tự lưu trữ phụ thuộc vào các điều khoản của họ. STT.ai's hosted service chạy STT.ai Enhanced trên GPU được quản lý vì vậy bạn không cần phải xử lý việc tích hợp đó.