Kiểm tra và phân loại loa
Tự động nhận dạng và dán nhãn các người nói khác nhau trong bản ghi âm và video của bạn. Biết chính xác ai nói gì.
Tự động sửa lỗi khi bạn nói — độ chính xác tăng lên khi nói lâu hơn.
Kiểm tra micro đầu tiênĐăng ký miễn phí để nhận 600 phút/tháng, hoặc nâng cấp để có phiên dịch không giới hạn.
Tiếng nói của người nói là gì?
Diarization của người nói là quá trình phân chia một luồng âm thanh thành các phân đoạn theo danh tính của người nói. Trong các thuật ngữ đơn giản hơn, nó trả lời câu hỏi "ai nói khi nào?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.
STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.
Cách phát hiện loa hoạt động
1. Kiểm tra hoạt động giọng nói
Hệ thống đầu tiên xác định các phân đoạn âm thanh nào chứa lời nói so với im lặng, âm nhạc hoặc tiếng ồn nền.
2. Tạo loa
Mỗi đoạn nói được chuyển đổi thành một loa nhúng - một vector compact thu được các đặc điểm giọng nói độc đáo của loa.
3. Cụm và dán nhãn
Các lồng ghép được nhóm lại để nhóm các phân đoạn từ cùng một loa cùng nhau, sau đó mỗi cụm được gán một nhãn (Loa 1, Loa 2, vv).
Kiểu dùng cho việc phát hiện loa
Thông tin về STT.ai
Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.
The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.
Thử phát hiện loa ngay
Tải lên một bản ghi nhiều loa và xem các loa được dán nhãn tự động.
Bắt đầu phiên dịch miễn phí