で文字起こし Whisper Large V3
4.2%
WER
99
Languages
8.0x
Speed
MIT
License
について Whisper Large V3
Whisper Large V3 is OpenAI's flagship open-source speech recognition model. With 1.55 billion parameters, it offers exceptional accuracy across 99 languages. It uses a transformer encoder-decoder architecture trained on 680,000 hours of multilingual audio data.
Model Info
- ProviderOpenAI
- Architecture-
- LicenseMIT
- UpdatedMar 2026
よくある質問
STT.aiはWhisper Large V3をGPUインフラストラクチャ上にホストしており、自分のハードウェアをプロビジョニングすることなく使用できます。オーディオやビデオをアップロードし、モデルピックアップからWhisper Large V3を選択します。
標準ベンチマークでは、Whisper Large V3は約4.2%のワードエラー率を達成しています。実際の精度は音声品質、アクセント、言語に依存します。ノイズやアクセントのある録音の場合、数パーセント高いWERを期待してください。
Whisper Large V3はSTT.aiのフリープランで動作し、訪問者は600分/月の無料利用が可能である。有料プランではファイル当たりの制限時間が長くなり、プライベート転写、優先順位キューが追加される。
Whisper Large V3は、オープンソースライセンスのMITでリリースされています。Whisper Large V3を自分のハードウェア上でセルフホストすることも、私たちのホストバージョンを使用することもできます。どちらも商用利用可能です。
Whisper Large V3 は 99 言語をサポートします。自動検出はほとんどのオーディオに適した言語を選択します。手動で指定することもできます。
Whisper Large V3はGPU上で音声を約8.0xのリアルタイムで処理します。1時間の音声ファイルは7分以下で終了します。長いファイルはキューに並び、完了したらメールで通知します。
Whisper Large V3 には 1.55B パラメータがあります。より大きなモデルはより正確ですが、遅い傾向にあります。STT.ai は GPU 上で Whisper Large V3 をホストしていますので、パラメータ数はクライアント側の性能に影響しません。
Whisper Large V3はSTT.aiがサポートするすべてのフォーマットを受け入れます。MP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM、AVIなど。出力はTXT、SRT、VTT、DOCX、JSON、PDFです。
はい。スピーカーダイアリゼーションはWhisper Large V3と共に実行されます。各スピーカーはラベル付きで、後でエディタで名前を変更できます。
はい。Whisper Large V3回の実行を管理環境で行います。オーディオはデフォルトで処理され削除され、明示的なオプションなしに訓練に使用されません。プロプランは静止中の転写に対してクライアント側暗号化を追加します。
Whisper Large V3と同じオーディオでサポートされている他のモデルを比較するには compare-stt ツールを使用してください。WER、セグメント数、スピーカーラベル、信頼度スコアが並んで表示されます。Whisper Large V3と Whisper Large V3 の比較が最もよく行われます。
はい。 /v1/transcribe エンドポイントにモデルパラメータとして"whisper-large-v3"を指定してください。PythonとNode.js SDKにはWhisper Large V3の例が含まれています。無料のAPIは月間100分の利用が含まれています。
STT.aiのオープンソースページにはプロジェクトのリポと重みがリストされています。ほとんどのプロダクションチームは、GPUの調達、モデルのスワップ、オペレーションを省略するために、私たちのホストバージョンを使用しています。