Convert MP4 to Text
アップロード mp4 100以上の言語 話者検出 タイムスタンプを含む
%sについて MP4
MP4 is the standard video container format. STT.ai extracts and transcribes the audio track from MP4 files automatically.
%s文字起こしのエクスポート形式
.TXT
プレーンテキスト
.SRT
字幕
.VTT
WebVTT
.DOCX
Word文書
.JSON
構造化
.PDF
ドキュメント
よくある質問
STT.aiにMP4ビデオファイルをアップロードするか、URLを貼り付けてください。オーディオトラックを自動的に抽出し、選択したAIモデルで実行します。手動のデマックスステップは不要です。出力フォーマットは、TXT、SRT、VTT、DOCX、JSON、PDFです。
STT.aiは月間600分のフリーで、約10時間のビデオコンテンツに十分です。MP4はファイルが大きく、アップロード制限はプランにより変化します。有料プランは月間5ドルからです。
88000ビデオ転写の精度はコンテナ内のオーディオトラックに依存する。
ほとんどの MP4 ファイルに対して、STT.ai Enhanced または Whisper Large V3 が最も正確です。NVIDIA Canary はより速く、短いクリップでも同等の品質です。同じファイルに対して複数のモデルの結果を compare-stt ツールで比較できます。
はい、MP4ビデオ転写は100以上の言語をサポートし、話された言語を自動的に検出します。多言語の対話の場合、セグメントごとに言語検出を有効にしてください。
はい。スピーカーダイアリゼーションは MP4 を含むすべてのサポートされているフォーマットで動作します。それぞれのスピーカーはラベル付き (スピーカー 1, スピーカー 2,..) で、後でエディタで名前を変更できます。
無料プランではファイルあたり1時間の動画を利用できますが、有料プランではファイルあたり8時間以上に拡張できます。巨大なカメラのRAWファイルの場合は、H.264/AACに圧縮するか、URLをアップロードしてください。
はい。MP4ファイルはデフォルトで処理され削除されます。プロプランはクライアント側暗号化を追加します。データベースが破壊されたとしても、鍵なしでは転写は読み取れません。データは明示的なオプションなしにモデルの訓練に使用されません。
REST APIは /v1/transcribe エンドポイントを通じて直接 MP4 ファイルを受け入れます。Python と Node.js SDK には MP4 例が含まれています。無料の階層には API 使用時間 100 分/月が含まれます。
はい。転写後は SRT または VTT 字幕をエクスポートできます。私たちの burn-subtitles ツールはこれらをハードサブとして MP4 ビデオにオーバーレイします。ソフトサブタイトルマウジングは、ネイティブ字幕トラックを持つ MP4 フォーマット (MKV、 mov_text を含む MP4) に対してもサポートされています。
はい。すべての転写は内蔵のエディタで開きます。そこで言葉を訂正、発言者の名前を変更、タイムスタンプを調整、メモを追加できます。編集はエクスポート中に保持されます。
字幕をSRTまたはVTTにエクスポートし、私たちのburn-subtitlesツールを使ってハードサブをMP4ビデオに直接レンダリングします。FFmpegの知識は必要ありません。ソフトサブの場合、MKVとMP4は再エンコーディングなしで字幕トラックを追加するのをサポートします。
STT.aiは1300以上のプラットフォームからのURLアップロードをサポートします。ソースがMP4またはMP4に変換可能なものを返す場合、それを転写できます。DRMで保護されたソースは転写できません。それらの場合は手動でダウンロードし、MP4ファイルを直接アップロードしてください。