無料音声変換ソフト

人工知能を利用した音声転写で音声をテキストに変換します。オーディオファイルをアップロード、マイクから録音、URLを貼り付けることができます。100以上の言語、10以上のモデル、98%以上の正確性。

公開されているオーディオとビデオで動作します。DRM 保護されたコンテンツはサポートされていません。

アップグレード
Private transcript
転写付きチャット
プロでロック解除 →
ファイルをここにドラッグまたはクリックしてブラウズ
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 最大2GB
アップグレード
Private transcript
転写付きチャット
プロでロック解除 →
アップグレード
録音: 0:00
リアルタイム ワックス (瞬間)
強化 囁き (正確)
公開リンク:24時間、テキストのみ · 登録 7d+オーディオのための · プロ 私的なリンクを

リアルタイムの音声からテキストに変換。AI は話すときに自動的に訂正します。長い話をすると正確さが向上します。

まずマイクをテストしてください
❤️ STT.aiを愛しているなら 友達に伝えて!
あなたは無料の転写を使った

無料で登録して月間600分を利用したり、無制限の転写を利用するためにアップグレードしてください。

10分フリー/日 600分無料 クレジットカードなし 暗号化
無料登録 →

1. 音声録音をアップロード

音声・動画ファイルをアップロード、URLを貼り付け、またはマイクで録音。

2. AIが音声をテキストに変換

10以上のAIモデルから選択。話者検出と言語自動検出を搭載。

3. 文字起こしをエクスポート

6つの形式でダウンロード。音声再生付きの文字起こしリンクを共有。

対応する音声入力形式

音声テキスト変換モデル

ニーズに合ったAIモデルを選択 — または最適なモデルをお任せください。

音声テキスト変換の活用事例

音声をテキストに変換する準備はできましたか?

無料で始める →

よくある質問

音声からテキストへの変換(音声認識またはASRとも呼ばれる)は、話された音声を書かれた言葉に自動的に変換します。STT.aiは、音声を聴き、タイムスタンプとスピーカーラベルを含む編集可能なテキストを出力するAIモデルを通して、あなたの録音を実行します。タイプする必要はありません。

音響モデルは音波形を音素にマッピングし,次に言語モデルはそれらを最も似ている単語と句読点に組み合わせる。STT.aiはこれをGPU上でWhisper Large V3やNVIDIA Canaryのようなモデルで行うので,1時間の録音は通常2〜3分で完了する。

はい、毎月600分無料で、 登録は必要ありません。 月額プランは$5から始まり、 より長いファイル、プライベートの転写、優先処理を追加します。

On clean speech our best models reach 95-97% accuracy (a 3-5% Word Error Rate on benchmarks). Accuracy drops with background noise, heavy accents, crosstalk, or low-bitrate audio — using a decent microphone and a quiet room makes the biggest difference.

Yes. Speak into your microphone and STT.ai streams the transcript live via the live-transcription tool. You can also upload a finished recording for batch transcription if you don't need it word-by-word as you talk.

STT.ai recognizes 100+ languages and auto-detects the spoken language for most audio. You can also set the language manually for a small accuracy lift, and mixed-language recordings are handled by switching mid-clip.

Yes. Speaker diarization labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the editor. This works across every supported model and language.

STT.ai accepts 20+ formats including MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, and AVI. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Speech to text transcribes WHAT was said into words; voice recognition (speaker identification) determines WHO said it. STT.ai does both — transcription plus speaker diarization — but the terms describe different tasks.

Yes. Audio is processed and deleted by default. Pro plans add client-side encryption so transcripts are unreadable without your key, even to STT.ai, and your data is never used for model training without explicit opt-in.

Yes. STT.ai has a REST API with Python and Node.js SDKs plus an MCP server for Claude and Cursor. The free API tier includes 100 minutes/month, with per-second billing beyond that.

Yes. Every transcript opens in a built-in editor where you can fix misheard words, rename speakers, adjust timestamps, and add notes. Edits persist across every export format.