AI ボイスクロナー

短いオーディオクリップからどんな声でもクローンできます。3-10秒の音声をアップロードし、テキストを入力して同じ声でオーディオを生成します。

音声参照音声をアップロード
MP3, WAV, M4A, FLAC
最大500文字
0/500
世代ごとに1クレジット使用
生成されたオーディオ
どうやって働くのか
1
参照をアップロード

クローンしたい声から3-10秒の明瞭な音声を提供してください。

2
人工知能が音声を分析する

F5‐TTSは音色,ピッチ,話し方,アクセントなどの音声特性を抽出する。

3
音声を生成

テキストはクローンされた音声で読み上げられます。結果を WAV としてダウンロードします。

声のクローンは個人的な認可のみの使用です。話者の同意なしに声をクローンしてはなりません。

よくある質問

STT.aiに音声・動画をアップロードし、AIモデルを選んで文字起こしをクリック。TXT、SRT、VTT、DOCX、JSON、PDFで出力。

はい!STT.aiは全ユーザーに月600分無料提供。初回は登録不要。有料プランは月$5から。

精度はAIモデルと音声品質に依存します。最高のモデルで93-95%以上の精度を達成。

STT.ai は、Whisper Large V3、NVIDIA Canaryなど10以上のモデルを提供しています。同じファイルで異なるモデルの結果を比較できます。

はい。転写した後、転写を SRT または VTT 字幕ファイルとしてエクスポートします。これは YouTube、Vimeo、その他の主要なビデオプラットフォームで動作します。

はい、 STT.ai は、AIスピーカーダイアリズムを使って、自動的に異なるスピーカーを識別し、ラベルを付けます。すべてのモデルと言語で動作します。

ほとんどのファイルは5分以内に転写されます。1時間のオーディオファイルは、私たちの最速のモデルで通常2-3分かかります。

STT.ai はMP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM、AVIなど20以上のオーディオとビデオフォーマットをサポートします。TXT、SRT、VTT、DOCX、JSON、またはPDFとしてエクスポートできます。

はい。オーディオファイルは転写後に処理され削除されます。データは訓練に使用されません。クライアント側暗号化はすべてのプランで無料です。これは保存された転写をあなただけが持つ鍵で暗号化します。処理中は、サーバがオーディオをプレーンテキストで処理します。 セキュリティについて.

はい、 STT.ai はPythonとNode.js SDKを使ったREST APIを提供しています。無料のタイアには月100分が含まれています。

はい STT.ai には 内蔵された 記録エディタが付属していて 誤りを訂正したり 話者の名前を変えたり タイムスタンプを調整したりできます

すべての転写は共有可能なユニークなリンクを得ます。メールのための DOCX または PDF にエクスポートします。プロプランはパスワードで保護された永続的なリンクを提供します。