音声検出とダイアリゼーション

オーディオやビデオの転写において、異なる発言者を自動的に識別し、ラベル付けします。誰が何を言ったかを正確に知ることができます。

仕組み →
ゼロノーネーム暗号化をオンにすると、転写はサーバに到達する前にブラウザで暗号化されます。私たちでも読めません。 (すべてのデータは常に転送中にHTTPSを介して暗号化される。)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
ファイルをここにドラッグまたはクリックしてブラウズ
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 最大2GB
録音: 0:00
リアルタイム ワックス (瞬間)
強化 囁き (正確)
公開リンク:24時間、テキストのみ · 登録 7d+オーディオのための · Pro 私的なリンクを

リアルタイムの音声からテキストに変換。AI は話すときに自動的に訂正します。長い話をすると正確さが向上します。

まずマイクをテストしてください
❤️ STT.aiを愛しているなら 友達に伝えて!
あなたは無料の転写を使った

無料で登録して月間600分を利用したり、無制限の転写を利用するためにアップグレードしてください。

10分フリー/日 600分無料 クレジットカードなし 暗号化
無料登録 →

音声透析とは何か。

音声データを音声データベースに格納するための,音声データベースの構築とその管理を行う。 This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

話者検出の仕組み

音声活動検出

まず,音声のどのセグメントが音声か,静音か,音楽か,背景音かを同定する。

2.スピーカー埋め込み

各音声セグメントは,話者の独特な音声特性を捕捉するコンパクトなベクトルである話者埋め込みに変換される。

クラスタリングとラベル付け

埋め込みは同じスピーカからのセグメントをグループ化するためにクラスタ化され,それぞれのクラスタにラベルを割り当てる。

話者検出のユースケース

会議録音
会議録音の参加者に自動的にタグを付けます。誰が何を言ったかを明確に記録した会議録を作成します。
ポッドキャスト転写
ポッドキャストエピソードのホストとゲストを区別します。正しいスピーカーの属性を持つショーノートを作成します。
インタビュー転写
調査,ジャーナリズム,雇用文書のためのインタビュー者とインタビュー対象者の応答を分離する。
法律・コンプライアンス
証言,聴聞,遵守通話の公式記録を作成し,明確な発言者の識別を行う。

STT.ai 上のスピーカー検出

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

スピーカー検出を試してみる

マルチスピーカー録音をアップロードし、自動的にスピーカーにラベルを付けます。

無料で転写を開始

よくある質問

STT.aiに音声・動画をアップロードし、AIモデルを選んで文字起こしをクリック。TXT、SRT、VTT、DOCX、JSON、PDFで出力。

はい!STT.aiは全ユーザーに月600分無料提供。初回は登録不要。有料プランは月$5から。

精度はAIモデルと音声品質に依存します。最高のモデルで93-95%以上の精度を達成。

STT.ai は、Whisper Large V3、NVIDIA Canaryなど10以上のモデルを提供しています。同じファイルで異なるモデルの結果を比較できます。

はい。転写した後、転写を SRT または VTT 字幕ファイルとしてエクスポートします。これは YouTube、Vimeo、その他の主要なビデオプラットフォームで動作します。

はい、 STT.ai は、AIスピーカーダイアリズムを使って、自動的に異なるスピーカーを識別し、ラベルを付けます。すべてのモデルと言語で動作します。

ほとんどのファイルは5分以内に転写されます。1時間のオーディオファイルは、私たちの最速のモデルで通常2-3分かかります。

STT.ai はMP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM、AVIなど20以上のオーディオとビデオフォーマットをサポートします。TXT、SRT、VTT、DOCX、JSON、またはPDFとしてエクスポートできます。

はい。オーディオファイルは転写後に処理され削除されます。データは訓練に使用されません。クライアント側暗号化はすべてのプランで無料です。これは保存された転写をあなただけが持つ鍵で暗号化します。処理中は、サーバがオーディオをプレーンテキストで処理します。 セキュリティについて.

はい、 STT.ai はPythonとNode.js SDKを使ったREST APIを提供しています。無料のタイアには月100分が含まれています。

はい STT.ai には 内蔵された 記録エディタが付属していて 誤りを訂正したり 話者の名前を変えたり タイムスタンプを調整したりできます

すべての転写は共有可能なユニークなリンクを得ます。メールのための DOCX または PDF にエクスポートします。プロプランはパスワードで保護された永続的なリンクを提供します。