バグ/機能要求を報告

転写 Vosk

公開されているオーディオとビデオで動作します。DRM 保護されたコンテンツはサポートされていません。

アップグレード

プライベート・トランスクリプト

転写付きチャット

プロでロック解除 →

ファイルをここにドラッグまたはクリックしてブラウズ

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 最大2GB

複数のファイルを一括アップロードプロと一緒に

アップグレード

プライベート・トランスクリプト

転写付きチャット

プロでロック解除 →

アップグレード

リアルタイムの音声からテキストに変換。AI は話すときに自動的に訂正します。長い話をすると正確さが向上します。

まずマイクをテストしてください

10分フリー/日 600分無料クレジットカードなし暗号化

無料登録 →

12.0%

WER

言語

100.0x

スピード

Apache 2.0

ライセンス

情報 Vosk

Voskはインターネット接続なしで動作するオフライン音声認識ツールキットです。20以上の言語をサポートし、モバイルデバイス、Raspberry Pi、その他のプラットフォームで動作するコンパクトなモデルを備えています。KaldiとZipformerアーキテクチャに基づいています。

サポートされている言語 Vosk

英語

スペイン語

フランス語

ドイツ語

中国語

日本語

韓国語

ポルトガル語

アラビア語

ヒンディー語

ロシア語

イタリア語

オランダ語

トルコ語

ポーランド語

スウェーデン語

インドネシア語

ベトナム語

チェコ語

ギリシャ語

モデル情報

プロバイダAlpha Cephei
建築-
ライセンスApache 2.0
更新Mar 2026

よくある質問

STT.aiはVoskをGPUインフラストラクチャ上にホストしており、自分のハードウェアをプロビジョニングすることなく使用できます。オーディオやビデオをアップロードし、モデルピックアップからVoskを選択します。

標準ベンチマークでは、Voskは約12.0%のワードエラー率を達成しています。実際の精度は音声品質、アクセント、言語に依存します。ノイズやアクセントのある録音の場合、数パーセント高いWERを期待してください。

VoskはSTT.aiのフリー版で動作し、訪問者は600分間無料で利用できる。有料プランではファイルごとの制限時間が長くなり、プライベートトランスクリプト、優先順位キューが追加される。

Voskは、オープンソースライセンスのApache 2.0でリリースされています。Voskを自分のハードウェア上でセルフホストすることも、私たちのホストバージョンを使用することもできます。どちらも商用利用可能です。

Vosk は 20 言語をサポートします。自動検出はほとんどのオーディオに適した言語を選択します。手動で指定することもできます。

VoskはGPU上で音声を約100.0xのリアルタイムで処理します。1時間の音声ファイルは1分以下で終了します。長いファイルはキューに並び、完了したらメールで通知します。

Vosk には 50M パラメータがあります。より大きなモデルはより正確ですが、遅い傾向にあります。STT.ai は GPU 上で Vosk をホストしていますので、パラメータ数はクライアント側の性能に影響しません。

VoskはSTT.aiがサポートするすべてのフォーマットを受け入れます。MP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM、AVIなど。出力はTXT、SRT、VTT、DOCX、JSON、PDFです。

はい。スピーカーダイアリゼーションはVoskと共に実行されます。各スピーカーはラベル付きで、後でエディタで名前を変更できます。

はい。Vosk回の実行を管理環境で行います。オーディオはデフォルトで処理され削除され、明示的なオプションなしに訓練に使用されません。プロプランは静止中の転写に対してクライアント側暗号化を追加します。

Voskと同じオーディオでサポートされている他のモデルを比較するには compare-stt ツールを使用してください。WER、セグメント数、スピーカーラベル、信頼度スコアが並んで表示されます。Voskと Whisper Large V3 の比較が最もよく行われます。

はい。 /v1/transcribe エンドポイントにモデルパラメータとして"vosk"を指定してください。PythonとNode.js SDKにはVoskの例が含まれています。無料のAPIは月間100分の利用が含まれています。

STT.aiのオープンソースページにはプロジェクトのリポと重みがリストされています。ほとんどのプロダクションチームは、GPUの調達、モデルのスワップ、オペレーションを省略するために、私たちのホストバージョンを使用しています。

転写 Vosk

情報 Vosk

サポートされている言語 Vosk

モデル情報

関連モデル

よくある質問

Voskって何？

Voskはどれくらい正確？

Voskは無料で使えるのか？

Voskはどんなライセンスを使ってる？

Voskは何言語をサポートしますか？

Voskはどれくらい速い？

Voskはどれくらい大きい？

Voskはどんな音声フォーマットを転写できますか？

Voskは複数のスピーカーを検出するか？

Voskを使ってもデータはプライベートなのか？

８８０００は他のＳＴＴモデルとどう比較される？

VoskをAPIで使えますか？

Voskを自分のサーバで動かせる？