Kiểm tra và phân loại loa

Tự động nhận dạng và dán nhãn các người nói khác nhau trong bản ghi âm và video của bạn. Biết chính xác ai nói gì.

Làm thế nào? →
Bật mã hóa không biết ai — bản ghi của bạn được mã hóa trong trình duyệt trước khi nó đến máy chủ của chúng tôi. (Tất cả dữ liệu luôn được mã hóa thông qua HTTPS khi chuyển.)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
Thả tập tin vào đây hoặc nhấn để duyệt
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — lên đến 2GB
Ghi âm: 0:00
Thời gian thực Sáp (trong giây lát)
Tăng cường Tiếng thì thầm (đúng)
Liên kết công cộng: 24h, chỉ văn bản · Đăng ký cho 7d + âm thanh · Pro cho liên kết riêng

Tự động sửa lỗi khi bạn nói — độ chính xác tăng lên khi nói lâu hơn.

Kiểm tra micro đầu tiên
❤️ Cảm ơn bạn đã ghé thăm STT.ai.
Anh đã dùng bản dịch miễn phí của mình.

Đăng ký miễn phí để nhận 600 phút/tháng, hoặc nâng cấp để có phiên dịch không giới hạn.

10 phút miễn phí/ngày 600 phút miễn phí với đăng ký Không có thẻ tín dụng Đã mã hóa
Đăng ký miễn phí →

Tiếng nói của người nói là gì?

Diarization của người nói là quá trình phân chia một luồng âm thanh thành các phân đoạn theo danh tính của người nói. Trong các thuật ngữ đơn giản hơn, nó trả lời câu hỏi "ai nói khi nào?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Cách phát hiện loa hoạt động

1. Kiểm tra hoạt động giọng nói

Hệ thống đầu tiên xác định các phân đoạn âm thanh nào chứa lời nói so với im lặng, âm nhạc hoặc tiếng ồn nền.

2. Tạo loa

Mỗi đoạn nói được chuyển đổi thành một loa nhúng - một vector compact thu được các đặc điểm giọng nói độc đáo của loa.

3. Cụm và dán nhãn

Các lồng ghép được nhóm lại để nhóm các phân đoạn từ cùng một loa cùng nhau, sau đó mỗi cụm được gán một nhãn (Loa 1, Loa 2, vv).

Kiểu dùng cho việc phát hiện loa

Bản dịch cuộc họp
Tự động dán nhãn mỗi người tham gia trong ghi âm cuộc họp. Tạo biên bản với ghi rõ ai nói gì.
Bản dịch Podcast
Phân biệt giữa chủ và khách trong các tập podcast. Tạo ghi chú trình chiếu với việc ghi rõ người phát biểu.
Phỏng vấn
Phỏng vấn viên và người được phỏng vấn trả lời riêng biệt cho nghiên cứu, báo chí, và tài liệu thuê.
Luật & tuân thủ
Tạo các hồ sơ chính thức của các lời khai, phiên tòa, và các cuộc gọi tuân thủ với nhận dạng người nói rõ ràng.

Thông tin về STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Thử phát hiện loa ngay

Tải lên một bản ghi nhiều loa và xem các loa được dán nhãn tự động.

Bắt đầu phiên dịch miễn phí

Câu hỏi thường gặp

Tải lên tệp âm thanh hoặc video lên STT.ai, chọn mô hình AI và nhấn Phiên âm. Xuất ra TXT, SRT, VTT, DOCX, JSON hoặc PDF.

Có! STT.ai cung cấp 600 phút miễn phí mỗi tháng. Không cần đăng ký.

Độ chính xác phụ thuộc vào mô hình AI và chất lượng âm thanh. Mô hình tốt nhất đạt 93-95%+.

STT.ai cung cấp 10+ mô hình bao gồm Whisper Large V3, NVIDIA Canary, và nhiều hơn nữa. Bạn có thể so sánh kết quả từ các mô hình khác nhau trên cùng một tập tin.

Có. Sau khi phiên dịch, xuất bản phiên dịch của bạn thành tập tin phụ đề SRT hoặc VTT. Chúng hoạt động với YouTube, Vimeo, và tất cả các nền tảng video chính.

STT.ai tự động nhận dạng và dán nhãn các loa khác nhau bằng cách sử dụng AI diarization loa.

Hầu hết các tập tin được phiên âm trong vòng 5 phút. một tập tin âm thanh 1 giờ thường mất 2-3 phút với các mẫu nhanh nhất của chúng tôi.

STT.ai hỗ trợ 20+ định dạng âm thanh và video bao gồm MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, và AVI. xuất ra TXT, SRT, VTT, DOCX, JSON, hoặc PDF.

Có. Tập tin âm thanh sẽ được xử lý và xóa sau khi phiên dịch. Dữ liệu của bạn không bao giờ được dùng để huấn luyện. Mật mã bên máy khách miễn phí trên tất cả các kế hoạch — nó mã hóa phiên dịch lưu trữ với một chìa khóa chỉ có bạn có. Trong quá trình xử lý, máy phục vụ xử lý âm thanh của bạn bằng văn bản đơn giản. Tìm hiểu về bảo mật.

STT.ai cung cấp một API REST với Python và Node.js SDKs. Mức miễn phí bao gồm 100 phút / tháng.

STT.ai có một trình biên tập ghi chép bên trong nơi bạn có thể sửa lỗi, đổi tên người phát biểu, và điều chỉnh dấu thời gian.

Mỗi bản ghi nhận sẽ có một liên kết chia sẻ duy nhất. Xuất sang DOCX hoặc PDF để gửi qua thư điện tử. Các kế hoạch Pro cung cấp liên kết bảo vệ bằng mật khẩu và liên kết vĩnh viễn.