Transcribe with SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
About SenseVoice
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Ofta settir spurningar
SenseVoice er ein tal-til-tekst-modell frá FunAudioLLM. STT.ai er hýsa fyri SenseVoice á okkara GPU-infrakervi, so tú kanst brúka tað uttan at gera títt egna hardware tilfar - senda inn ljóð ella video og vel SenseVoice frá model-veljaranum.
SenseVoice hevur eina orðfeilstíð uppá umleið 5.5% í standard próvtøkum. Real-world accuracy depends on audio quality, accent, and language; for noisy or accented recordings, expect a few percentage points higher WER.
SenseVoice koyrir á STT.ai1's free tier - hvør vitjandi fær 600 minuttir / mánaða uttan kostnað. gjaldandi ætlanirnar leggja longri per-file markið, private transcripts, og priority queuing.
SenseVoice er útgivið undir MIT, einari permissivari opnari upprunaloyvisskipan. Tú kanst sjálvur vera vertur fyri SenseVoice á tínum egna maskinvara ella brúka okkara vertur útgávu — báðar eru kommersielt nýtiligar.
SenseVoice stuðlar 50 málum. Auto-discover velur rætta málið fyri flestu ljóðini. Tú kanst eisini velja tað manuelt fyri at fáa eina lítla øgiligari nákvæmni.
SenseVoice processes audio at about 50.0x real-time on our GPUs. A 1-hour audio file finishes in under 1 minutes; longer files queue and notify by email when done.
SenseVoice hevur 234M parametrar. Størri modeller hava til at vera meira nákvæmar, men hægri; STT.ai hevur SenseVoice á GPU, so parameter-talið hevur ikki ávirkan á klient-síðuna.
SenseVoice tekur ímóti øllum sniðum, sum STT.ai stuðlar — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, og onnur. Úttøka sum TXT, SRT, VTT, DOCX, JSON, ella PDF.
Ja. Speaker diarization runs alongside SenseVoice for every transcription — each speaker is labelled and you can rename them in the editor afterwards.
Ja. SenseVoice koyrir í okkara umsitingarliga umhvørvi — ljóð verður viðgjørt og slettað sum standard og verður ongantíð brúkt til venjing uttan útgreiniliga atkvøðugreiðslu. Pro-planir leggja til klient-side-kryptering fyri transkriptiónir í hvíld.
No use the compare-stt tool to run SenseVoice against any other supported model on the same audio — you'll see WER, segment count, speaker labels, and confidence scores side-by-side. The SenseVoice vs Whisper Large V3 comparison is the most commonly run.
Ja. Tilgreina "sensevoice" sum modelparameter á /v1/transcribe endapunktinum. Python og Node.js SDK'ir innihalda SenseVoice dømi. Frítt API-stig fevnir um 100 minuttir/mánað.
Ja. Tí SenseVoice er MIT-licensed, tú kanst self-host it. STT.ai's open-source page lists the project repo and weights. Most production teams use our hosted version to skip GPU procurement, model swaps, and ops.