Transcribe with SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
About SenseVoice
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Questions frequentas
SenseVoice is a speech-to-text model by FunAudioLLM. STT.ai hosts SenseVoice on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick SenseVoice from the model picker.
@ info
SenseVoice s'exécuta sul nivèl liure de STT.ai — cada visitaire a 600 minutas/mes sens còst. Los plans pagats apondon de limitas mai longas per fichièr, de transcripcions privadas e de files de prioritat.
SenseVoice es publicat jos la licéncia MIT, una licéncia de còde dobèrt permissiva. Podètz auto-ostejar SenseVoice sus vòstre pròpri maquinari o utilizar nòstra version ostejada — ambedos son comercialament utilizables.
SenseVoice pren en carga 50 lengas. La deteccion automatica causís la lenga correcta per la majoritat dels sons; podètz tanben la especificar manualament per una precision melhorada.
SenseVoice traça l'audio a aperaquí 50.0x en temps real sus nòstras GPU. Un fichièr àudio d'una ora se acaba en mens de 1 minutas; los fichièrs mai longs son plaçats en fila e notificats per corrièr electronic quand son acabats.
SenseVoice a de paramètres 234M. Los modèls mai grands son mai precises mas mai lents; STT.ai òste SenseVoice sul GPU, doncas lo compte de paramètres afecta pas vòstras performanças del costat client.
SenseVoice accepta totes los formats que pren en carga STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, e d'autres. Sortida coma TXT, SRT, VTT, DOX, JSON, o PDF.
@ info: shell
@ info
Utilizatz l'aisina compare-stt per comparar SenseVoice amb quin autre modèl suportat sul meteis audio — veiretz WER, lo comptatge de segments, las etiquetas dels parlants e las pontuacions de fiabilitat a costat. La comparason SenseVoice vs Whisper Large V3 es la mai comuna.
Òc. Especifiquez "sensevoice" coma paramètre del modèl sul punt de fin /v1/transcribe. Los SDK Python e Node.js incluson d'exemples SenseVoice. Lo nivèl API liure inclutz 100 minutas/mes.
Òc. Perque SenseVoice es licenciat amb MIT, podètz l'albergar. La pagina de còde dobèrt de STT.ai lista lo repositori e los pes del projècte. La majoritat de las equipas de produccion utilizan nòstra version albergada per passar l'aquisicion de GPU, los escambis de modèls e las operacions.