Phiên âm với NVIDIA Parakeet

Làm việc với âm thanh và video công cộng. Không hỗ trợ nội dung được bảo vệ DRM.

Tăng cấp cho nâng cấp
Private transcript
Trò chuyện với bản ghi chép
Mở khóa với Pro →
Thả tập tin vào đây hoặc nhấn để duyệt
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — lên đến 2GB
Tăng cấp cho nâng cấp
Private transcript
Trò chuyện với bản ghi chép
Mở khóa với Pro →
Tăng cấp cho nâng cấp
Ghi âm: 0:00
Thời gian thực Sáp (trong giây lát)
Tăng cường Tiếng thì thầm (đúng)
Liên kết công cộng: 24h, chỉ văn bản · Đăng ký cho 7d + âm thanh · Tốt cho liên kết riêng

Tự động sửa lỗi khi bạn nói — độ chính xác tăng lên khi nói lâu hơn.

Kiểm tra micro đầu tiên
❤️ Cảm ơn bạn đã ghé thăm STT.ai.
Anh đã dùng bản dịch miễn phí của mình.

Đăng ký miễn phí để nhận 600 phút/tháng, hoặc nâng cấp để có phiên dịch không giới hạn.

10 phút miễn phí/ngày 600 phút miễn phí với đăng ký Không có thẻ tín dụng Đã mã hóa
Đăng ký miễn phí →
3.0%
WER
1
Languages
55.0x
Speed
CC-BY-4.0
License

Giới thiệu NVIDIA Parakeet

NVIDIA Parakeet TDT 1.1B is a state-of-the-art English ASR model using FastConformer architecture with Token-and-Duration Transducer (TDT). It achieves near-human accuracy on standard English benchmarks and is highly optimized for NVIDIA GPUs.

Ngôn ngữ được hỗ trợ NVIDIA Parakeet

Câu hỏi thường gặp

STT.ai host NVIDIA Parakeet on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick NVIDIA Parakeet from the model picker.

Độ chính xác thực tế phụ thuộc vào chất lượng âm thanh, giọng nói và ngôn ngữ; đối với các bản ghi âm ồn ào hoặc có giọng nói, chờ đợi một vài điểm phần trăm cao hơn WER.

NVIDIA Parakeet chạy trên tầng miễn phí của STT.ai - mỗi khách truy cập có 600 phút / tháng miễn phí.

NVIDIA Parakeet được phát hành dưới giấy phép mã nguồn mở CC-BY-4.0. Bạn có thể tự lưu trữ NVIDIA Parakeet trên phần cứng của mình hoặc sử dụng phiên bản lưu trữ của chúng tôi — cả hai đều có thể sử dụng thương mại.

NVIDIA Parakeet hỗ trợ 1 ngôn ngữ. Tự động phát hiện chọn ngôn ngữ đúng cho hầu hết âm thanh; bạn cũng có thể chỉ định nó bằng tay để tăng độ chính xác một chút.

NVIDIA Parakeet xử lý âm thanh với tốc độ khoảng 55.0x thời gian thực trên GPU của chúng tôi. Một tập tin âm thanh 1 giờ hoàn thành trong 1 phút; tập tin dài hơn xếp hàng và thông báo bằng email khi hoàn thành.

NVIDIA Parakeet có các tham số 1.1B. Các mẫu lớn có xu hướng chính xác hơn nhưng chậm hơn; STT.ai host NVIDIA Parakeet trên GPU vì vậy số lượng tham số không ảnh hưởng đến hiệu suất bên máy khách.

NVIDIA Parakeet chấp nhận mọi định dạng STT.ai hỗ trợ — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, và những thứ khác.

Vâng. Tính toán các người nói chạy cùng với NVIDIA Parakeet cho mỗi bản phiên âm — mỗi người nói được đánh dấu và bạn có thể đổi tên chúng trong trình biên tập sau đó.

Có. NVIDIA Parakeet chạy trong môi trường quản lý của chúng tôi — âm thanh được xử lý và xóa theo mặc định và không bao giờ được sử dụng cho huấn luyện mà không có sự đồng ý rõ ràng. Các kế hoạch Pro thêm mã hóa bên khách hàng cho các bản ghi khi nghỉ.

Dùng công cụ compare-stt để chạy NVIDIA Parakeet so với bất kỳ mô hình nào được hỗ trợ trên cùng một âm thanh — bạn sẽ thấy WER, số phân đoạn, nhãn loa, và điểm tin cậy cạnh nhau.

Có. Chỉ ra "nvidia-parakeet" như tham số mô hình trên điểm kết thúc /v1/transcribe. Python và Node.js SDK bao gồm ví dụ NVIDIA Parakeet. Lớp API miễn phí bao gồm 100 phút/tháng.

Vâng. Bởi vì NVIDIA Parakeet được cấp phép CC-BY-4.0, bạn có thể tự lưu trữ nó. Trang mã nguồn mở của STT.ai liệt kê dự án và trọng lượng. Hầu hết các nhóm sản xuất sử dụng phiên bản lưu trữ của chúng tôi để bỏ qua việc mua GPU, thay đổi mô hình và các hoạt động.