Transcribe with SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
About SenseVoice
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Soalan Lazim
SenseVoice adalah model pertuturan-ke-teks oleh FunAudioLLM. STT.ai memuatkan SenseVoice pada infrastruktur GPU kami supaya anda boleh menggunakannya tanpa menyediakan perkakasan anda sendiri — muat naik audio atau video dan pilih SenseVoice dari pemilih model.
Pada piawaian piawai, SenseVoice mencapai kira-kira 5.5% Kadar Ralat Perkataan. Ketepatan dunia nyata bergantung pada kualiti audio, loghat, dan bahasa; untuk rakaman bising atau loghat, harapkan beberapa peratusan WER yang lebih tinggi.
SenseVoice berjalan pada aras percuma STT.ai — setiap pengunjung mendapat 600 minit/bulan tanpa kos. Rancangan berbayar menambah had per-fail yang lebih panjang, transkripsi peribadi, dan baris gilir keutamaan.
SenseVoice dikeluarkan di bawah lesen sumber terbuka MIT. Anda boleh memuat turun SenseVoice pada perkakasan anda sendiri atau menggunakan versi kami yang dimuat turun — kedua-duanya boleh digunakan secara komersial.
SenseVoice menyokong 50 bahasa. Auto-kesan memilih bahasa yang betul untuk kebanyakan audio; anda juga boleh nyatakannya secara manual untuk ketelusan yang lebih baik.
SenseVoice memproses audio pada kira-kira 50.0x masa nyata pada GPU kami. Fail audio 1 jam selesai dalam kurang daripada 1 minit; fail yang lebih panjang berijil dan maklumkan melalui emel bila selesai.
SenseVoice mempunyai parameter 234M. Model yang lebih besar cenderung lebih tepat tetapi lebih perlahan; STT.ai memuatkan SenseVoice pada GPU jadi kiraan parameter tidak mempengaruhi prestasi sisi klien anda.
SenseVoice menerima setiap format yang disokong STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, dan lain-lain. Output sebagai TXT, SRT, VTT, DOCX, JSON, atau PDF.
Ya. Diarisasi pembicara berjalan bersama SenseVoice untuk setiap transkripsi — setiap pembicara dilabel dan anda boleh menamakan semula mereka dalam editor selepas itu.
Ya. SenseVoice berjalan dalam persekitaran yang dikendalikan kami — audio diproses dan dipadam secara lalai dan tidak pernah digunakan untuk latihan tanpa opt-in yang jelas. Rancangan Pro menambah penyulitan sisi klien untuk transkripsi ketika rehat.
Gunakan alat compare-stt untuk jalankan SenseVoice terhadap model yang disokong lain pada audio yang sama — anda akan lihat WER, kiraan segmen, label pengeras, dan skor keyakinan berdampingan. Perbandingan SenseVoice vs Whisper Large V3 adalah yang paling biasa dijalankan.
Ya. Nyatakan "sensevoice" sebagai parameter model pada titik akhir /v1/transcribe. Python dan Node.js SDKs termasuk contoh SenseVoice. Tahap API percuma termasuk 100 minit/bulan.
Ya. Kerana SenseVoice adalah MIT-licensed, anda boleh self-host ia. STT.ai's open-source page lists the project repo and weights. Kebanyakan pasukan produksi menggunakan versi kami yang dihost untuk melepasi pembelian GPU, pertukaran model, dan ops.