で文字起こし Moonshine
7.8%
WER
1
Languages
80.0x
Speed
MIT
License
について Moonshine
Moonshine is an extremely compact speech-to-text model designed for resource-constrained environments. At only 61M parameters, it runs efficiently on edge devices like Raspberry Pi while maintaining reasonable English transcription accuracy.
がサポートする言語 Moonshine
Model Info
- ProviderUseful Sensors
- Architecture-
- LicenseMIT
- UpdatedMar 2026
よくある質問
STT.aiはMoonshineをGPUインフラストラクチャ上にホストしており、自分のハードウェアをプロビジョニングすることなく使用できます。オーディオやビデオをアップロードし、モデルピックアップからMoonshineを選択します。
標準ベンチマークでは、Moonshineは約7.8%のワードエラー率を達成しています。実際の精度は音声品質、アクセント、言語に依存します。ノイズやアクセントのある録音の場合、数パーセント高いWERを期待してください。
MoonshineはSTT.aiのフリープランで動作し、訪問者は600分/月の無料利用が可能である。有料プランではファイル当たりの制限時間が長くなり、プライベート転写、優先順位キューが追加される。
Moonshineは、オープンソースライセンスのMITでリリースされています。Moonshineを自分のハードウェア上でセルフホストすることも、私たちのホストバージョンを使用することもできます。どちらも商用利用可能です。
Moonshine は 1 言語をサポートします。自動検出はほとんどのオーディオに適した言語を選択します。手動で指定することもできます。
MoonshineはGPU上で音声を約80.0xのリアルタイムで処理します。1時間の音声ファイルは1分以下で終了します。長いファイルはキューに並び、完了したらメールで通知します。
Moonshine には 61M パラメータがあります。より大きなモデルはより正確ですが、遅い傾向にあります。STT.ai は GPU 上で Moonshine をホストしていますので、パラメータ数はクライアント側の性能に影響しません。
MoonshineはSTT.aiがサポートするすべてのフォーマットを受け入れます。MP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM、AVIなど。出力はTXT、SRT、VTT、DOCX、JSON、PDFです。
はい。スピーカーダイアリゼーションはMoonshineと共に実行されます。各スピーカーはラベル付きで、後でエディタで名前を変更できます。
はい。Moonshine回の実行を管理環境で行います。オーディオはデフォルトで処理され削除され、明示的なオプションなしに訓練に使用されません。プロプランは静止中の転写に対してクライアント側暗号化を追加します。
Moonshineと同じオーディオでサポートされている他のモデルを比較するには compare-stt ツールを使用してください。WER、セグメント数、スピーカーラベル、信頼度スコアが並んで表示されます。Moonshineと Whisper Large V3 の比較が最もよく行われます。
はい。 /v1/transcribe エンドポイントにモデルパラメータとして"moonshine"を指定してください。PythonとNode.js SDKにはMoonshineの例が含まれています。無料のAPIは月間100分の利用が含まれています。
STT.aiのオープンソースページにはプロジェクトのリポと重みがリストされています。ほとんどのプロダクションチームは、GPUの調達、モデルのスワップ、オペレーションを省略するために、私たちのホストバージョンを使用しています。