Báo cáo lỗi / yêu cầu tính năng

Speaker Detection & Diarization

Automatically identify and label different speakers in your audio and video transcriptions. Know exactly who said what.

Làm việc với âm thanh và video công cộng. Không hỗ trợ nội dung được bảo vệ DRM.

Tăng cấp cho nâng cấp

Bản dịch riêng

Trò chuyện với bản ghi chép

Mở khóa với Pro →

Thả tập tin vào đây hoặc nhấn để duyệt

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — lên đến 2GB

Tải lên nhiều tập tin một lúc với Pro

Tăng cấp cho nâng cấp

Bản dịch riêng

Trò chuyện với bản ghi chép

Mở khóa với Pro →

Tăng cấp cho nâng cấp

Tự động sửa lỗi khi bạn nói — độ chính xác tăng lên khi nói lâu hơn.

Kiểm tra micro đầu tiên

10 phút miễn phí/ngày 600 phút miễn phí với đăng ký Không có thẻ tín dụng Đã mã hóa

Đăng ký miễn phí →

What is Speaker Diarization?

Speaker diarization is the process of partitioning an audio stream into segments according to the identity of the speaker. In simpler terms, it answers the question "who spoke when?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

How Speaker Detection Works

1. Voice Activity Detection

The system first identifies which segments of audio contain speech versus silence, music, or background noise.

2. Speaker Embedding

Each speech segment is converted into a speaker embedding -- a compact vector that captures the unique vocal characteristics of the speaker.

3. Clustering & Labeling

Embeddings are clustered to group segments from the same speaker together, then each cluster is assigned a label (Speaker 1, Speaker 2, etc.).

Use Cases for Speaker Detection

Meeting Transcription

Automatically label each participant in meeting recordings. Generate minutes with clear attribution of who said what.

Podcast Transcription

Distinguish between host and guests in podcast episodes. Create show notes with proper speaker attribution.

Interview Transcription

Separate interviewer and interviewee responses for research, journalism, and hiring documentation.

Legal & Compliance

Create official records of depositions, hearings, and compliance calls with clear speaker identification.

Speaker Detection on STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Try speaker detection now

Upload a multi-speaker recording and see speakers automatically labeled.

Start Transcribing Free

Câu hỏi thường gặp

phát hiện loa chạy trong trình duyệt của bạn: dán URL, tải lên tập tin, hay ghi âm từ mic của bạn. STT.ai chọn mô hình AI và trả lại bản ghi trong 5 phút. Xuất dạng TXT, SRT, VTT, DOCX, JSON, hoặc PDF.

Có — mỗi khách truy cập có 600 phút miễn phí để bắt đầu trên STT.ai, có thể sử dụng cho phát hiện loa giống như bất kỳ luồng công việc nào khác. Các kế hoạch trả tiền bắt đầu từ $5/tháng mở khóa các tập tin dài hơn, bản ghi riêng và xếp hàng ưu tiên.

phát hiện loa chạy trên cùng mô hình AI như phần còn lại của STT.ai — các mô hình tốt nhất của chúng tôi đạt đến độ chính xác 95-97% trong nói rõ (3-5% Tỷ lệ lỗi từ trong các tiêu chuẩn). Thay đổi mô hình khi bay nếu lần đầu đi qua dưới mục tiêu của bạn.

phát hiện loa có thể chạy trên bất kỳ STT.ai 10+ mẫu — STT.ai Enhanced (đúng nhất), Whisper Large V3 (99 ngôn ngữ), NVIDIA Canary (#1 WER trên langs hỗ trợ), Whisper Turbo (nhanh), Moonshine (nhẹ), và nhiều hơn nữa.

Có. Mỗi bản dịch được xuất thành SRT hoặc VTT — hoạt động với YouTube, Vimeo, TikTok, VLC, và mọi trình xem video lớn. Công cụ ghi phụ đề sẽ đặt chúng lên video như phần phụ đề.

Có. Tự động dán nhãn mỗi giọng nói (Giọng nói 1, Giọng nói 2,...) và bạn có thể đổi tên chúng trong trình biên tập nội bộ. Hoạt động trên tất cả các mẫu và ngôn ngữ.

Hầu hết phát hiện loa công việc hoàn thành trong 5 phút. Một tập tin âm thanh 1 giờ thường hoàn thành trong 2-3 phút với các mẫu nhanh nhất của chúng tôi. Tốc độ phụ thuộc vào mẫu chọn và tải CPU hiện tại.

phát hiện loa chấp nhận hơn 20 định dạng — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, và nhiều hơn nữa. Xuất thành TXT, SRT, VTT, DOCX, JSON, hoặc PDF.

Có. Tập tin âm thanh gửi đến phát hiện loa được xử lý và xóa theo mặc định. Các gói Pro thêm mã hóa bên khách — ngay cả khi cơ sở dữ liệu của STT.ai bị phá vỡ, bản ghi của bạn không đọc được nếu không có chìa khóa của bạn. Dữ liệu không bao giờ được dùng cho việc huấn luyện mô hình nếu không có sự đồng ý rõ ràng.

Có. STT.ai cung cấp một API REST với Python và Node.js SDKs, cộng thêm một máy chủ MCP cho Claude và Cursor — tất cả đều có thể sử dụng cho phát hiện loa workflows.

Có. Mỗi bản ghi sẽ được mở trong trình biên tập bên trong nơi bạn có thể sửa chữa từ, đổi tên người nói, điều chỉnh dấu thời gian, và thêm ghi chú. Tất cả các thay đổi sẽ được tự động lưu.

Mỗi bản ghi nhận có một URL có thể chia sẻ độc nhất. Xuất DOCX hoặc PDF cho email. Các kế hoạch Pro thêm liên kết bảo vệ mật khẩu và liên kết vĩnh viễn — hữu ích cho công việc khách hàng.

STT.ai xử lý 1.300+ nền tảng bao gồm YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, và nhiều hơn nữa. URL transcription works with publicly-available content only — DRM-protected sources cannot be transcribed.

Speaker Detection & Diarization

What is Speaker Diarization?

How Speaker Detection Works

1. Voice Activity Detection

2. Speaker Embedding

3. Clustering & Labeling

Use Cases for Speaker Detection

Speaker Detection on STT.ai

Try speaker detection now

Câu hỏi thường gặp

phát hiện loa hoạt động như thế nào trên STT.ai?

phát hiện loa có sẵn không?

phát hiện loa chính xác như thế nào?

Tôi có thể dùng những mô hình AI nào cho phát hiện loa?

Tôi có thể lấy phụ đề từ phát hiện loa không?

phát hiện loa có phát hiện ra các loa khác nhau không?

phát hiện loa mất bao lâu?

phát hiện loa hỗ trợ định dạng nhập nào?

Âm thanh của tôi có riêng tư khi tôi sử dụng phát hiện loa không?

Có API phát hiện loa không?

Tôi có thể chỉnh sửa một bản ghi phát hiện loa sau không?

Làm thế nào để chia sẻ những gì phát hiện loa tạo ra?

Những nền tảng nào khác hoạt động ngoài phát hiện loa?