バグ/機能要求を報告

音声検出とダイアリゼーション

オーディオやビデオの転写において、異なる発言者を自動的に識別し、ラベル付けします。誰が何を言ったかを正確に知ることができます。

公開されているオーディオとビデオで動作します。DRM 保護されたコンテンツはサポートされていません。

アップグレード

Private transcript

転写付きチャット

プロでロック解除 →

ファイルをここにドラッグまたはクリックしてブラウズ

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 最大2GB

複数のファイルを一括アップロードプロと一緒に

アップグレード

Private transcript

転写付きチャット

プロでロック解除 →

アップグレード

リアルタイムの音声からテキストに変換。AI は話すときに自動的に訂正します。長い話をすると正確さが向上します。

まずマイクをテストしてください

10分フリー/日 600分無料クレジットカードなし暗号化

無料登録 →

音声透析とは何か。

音声データを音声データベースに格納するための，音声データベースの構築とその管理を行う。 This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

話者検出の仕組み

音声活動検出

まず，音声のどのセグメントが音声か，静音か，音楽か，背景音かを同定する。

２．スピーカー埋め込み

各音声セグメントは，話者の独特な音声特性を捕捉するコンパクトなベクトルである話者埋め込みに変換される。

クラスタリングとラベル付け

埋め込みは同じスピーカからのセグメントをグループ化するためにクラスタ化され，それぞれのクラスタにラベルを割り当てる。

話者検出のユースケース

会議録音

会議録音の参加者に自動的にタグを付けます。誰が何を言ったかを明確に記録した会議録を作成します。

ポッドキャスト転写

ポッドキャストエピソードのホストとゲストを区別します。正しいスピーカーの属性を持つショーノートを作成します。

インタビュー転写

調査，ジャーナリズム，雇用文書のためのインタビュー者とインタビュー対象者の応答を分離する。

法律・コンプライアンス

証言，聴聞，遵守通話の公式記録を作成し，明確な発言者の識別を行う。

STT.ai 上のスピーカー検出

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

スピーカー検出を試してみる

マルチスピーカー録音をアップロードし、自動的にスピーカーにラベルを付けます。

無料で転写を開始

よくある質問

STT.aiに音声・動画をアップロードし、AIモデルを選んで文字起こしをクリック。TXT、SRT、VTT、DOCX、JSON、PDFで出力。

はい！STT.aiは全ユーザーに月600分無料提供。初回は登録不要。有料プランは月$5から。

精度はAIモデルと音声品質に依存します。最高のモデルで93-95%以上の精度を達成。

STT.ai は、Whisper Large V3、NVIDIA Canaryなど10以上のモデルを提供しています。同じファイルで異なるモデルの結果を比較できます。

はい。転写した後、転写を SRT または VTT 字幕ファイルとしてエクスポートします。これは YouTube、Vimeo、その他の主要なビデオプラットフォームで動作します。

はい、 STT.ai は、AIスピーカーダイアリズムを使って、自動的に異なるスピーカーを識別し、ラベルを付けます。すべてのモデルと言語で動作します。

ほとんどのファイルは5分以内に転写されます。1時間のオーディオファイルは、私たちの最速のモデルで通常2-3分かかります。

STT.ai はMP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM、AVIなど20以上のオーディオとビデオフォーマットをサポートします。TXT、SRT、VTT、DOCX、JSON、またはPDFとしてエクスポートできます。

はい。オーディオファイルは転写後に処理され削除されます。データは訓練に使用されません。クライアント側暗号化はすべてのプランで無料です。これは保存された転写をあなただけが持つ鍵で暗号化します。処理中は、サーバがオーディオをプレーンテキストで処理します。セキュリティについて.

はい、 STT.ai はPythonとNode.js SDKを使ったREST APIを提供しています。無料のタイアには月100分が含まれています。

はい STT.ai には内蔵された記録エディタが付属していて誤りを訂正したり話者の名前を変えたりタイムスタンプを調整したりできます

すべての転写は共有可能なユニークなリンクを得ます。メールのための DOCX または PDF にエクスポートします。プロプランはパスワードで保護された永続的なリンクを提供します。

STT.aiはYouTube、Vimeo、TikTok、SoundCloudなど1,300以上のプラットフォームをサポートします。URL転写は公開されているオーディオとビデオのみで動作します。DRM保護されたコンテンツ（Spotify premium episodes、Netflix、Disney+など）は転写できません。DRMコンテンツの場合は、ファイルを別にダウンロードして直接アップロードしてください。

音声検出とダイアリゼーション

音声透析とは何か。

話者検出の仕組み

音声活動検出

２．スピーカー埋め込み

クラスタリングとラベル付け

話者検出のユースケース

STT.ai 上のスピーカー検出

スピーカー検出を試してみる

よくある質問

音声を文字起こしするには？

文字起こしは無料ですか？

文字起こしの精度は？

どのようなAIモデルを使うことができるか。

字幕をつけてくれないか？

異なるスピーカーを検出するか？

転写にはどれくらいかかりますか。

ファイルフォーマットはどれをサポートしますか？

私の音声データは プライベートに保管されますか？

APIを通じて転写にアクセスできますか？

後で 記録を編集できますか？

どうやって 成績を共有する？

どのURLとプラットフォームがサポートされていますか？