話者検出と話者分離

音声・動画の文字起こしで異なる話者を自動的に識別・ラベル付け。誰が何を言ったかを正確に把握。

公開されているオーディオとビデオで動作します。DRM 保護されたコンテンツはサポートされていません。

アップグレード
Private transcript
転写付きチャット
プロでロック解除 →
ファイルをここにドラッグまたはクリックしてブラウズ
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 最大2GB
アップグレード
Private transcript
転写付きチャット
プロでロック解除 →
アップグレード
録音: 0:00
リアルタイム ワックス (瞬間)
強化 囁き (正確)
公開リンク:24時間、テキストのみ · 登録 7d+オーディオのための · プロ 私的なリンクを

リアルタイムの音声からテキストに変換。AI は話すときに自動的に訂正します。長い話をすると正確さが向上します。

まずマイクをテストしてください
❤️ STT.aiを愛しているなら 友達に伝えて!
あなたは無料の転写を使った

無料で登録して月間600分を利用したり、無制限の転写を利用するためにアップグレードしてください。

10分フリー/日 600分無料 クレジットカードなし 暗号化
無料登録 →

話者分離とは?

話者分離とは、音声ストリームを話者の身元に基づいてセグメントに分割するプロセスです。簡単に言えば、「誰がいつ話したか?」という質問に答えます。 This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

話者検出の仕組み

1. 音声活動検出

システムはまず、どの音声セグメントに発話が含まれ、どれが無音、音楽、背景ノイズかを識別します。

2. 話者エンベディング

各発話セグメントは話者エンベディングに変換されます — 話者のユニークな声の特徴を捉えたコンパクトなベクトルです。

3. クラスタリングとラベリング

エンベディングをクラスタリングして同じ話者のセグメントをグループ化し、各クラスタにラベルを割り当てます(話者1、話者2など)。

話者検出の活用事例

会議の文字起こし
会議録音の各参加者を自動的にラベル付け。誰が何を言ったかを明確にした議事録を作成。
ポッドキャストの文字起こし
ポッドキャストエピソードのホストとゲストを区別。正確な話者帰属のショーノートを作成。
インタビューの文字起こし
研究、ジャーナリズム、採用ドキュメント用にインタビュアーと回答者の回答を分離。
法律とコンプライアンス
明確な話者識別付きの供述書、聴聞会、コンプライアンスコールの公式記録を作成。

STT.aiの話者検出

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

話者検出を今すぐ試す

複数話者の録音をアップロードして、話者が自動的にラベル付けされるのをご覧ください。

無料で文字起こしを開始

よくある質問

speaker detection runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speaker detection the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speaker detection runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speaker detection can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speaker detection jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speaker detection accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speaker detection are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speaker detection workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.