Transcribe with SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
About SenseVoice
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Usein kysyttyjä kysymyksiä
SenseVoice on FunAudioLLM:n puheesta tekstiin -malli. STT.ai isännöi SenseVoice:ta GPU-infrastruktuurissamme, joten voit käyttää sitä ilman, että varaat omia laitteitasi – lataat äänen tai videon ja valitset SenseVoice mallinnostolaitteesta.
Standardimittauksissa SenseVoice saavuttaa noin 8801 prosentin Word Error Rate -arvon. Todellisen maailman tarkkuus riippuu äänenlaadusta, aksentista ja kielestä; äänekkäiden tai korostuneiden äänitteiden osalta WER:n odotetaan olevan muutaman prosenttiyksikön korkeampi.
SenseVoice kulkee STT.ai:n ilmaisella kerroksella – jokainen kävijä saa 600 minuuttia kuukaudessa maksutta. Maksettuihin suunnitelmiin lisätään pidempiä tiedostokohtaisia raja-arvoja, yksityisiä selostuksia ja ensisijaisuusjonoa.
SenseVoice julkaistaan sallivan avoimen lähdekoodin lisenssin alla. Voit itse isännöidä SenseVoice:ta omalla laitteistollasi tai käyttää isäntäversiotamme – molemmat ovat kaupallisesti käyttökelpoisia.
SenseVoice tukee 50 kieltä. Automaattinen havainnointi valitsee oikean kielen useimmille äänille; voit myös määrittää sen manuaalisesti pientä tarkkuusnosturia varten.
SenseVoice prosessorin äänentoisto noin 50.0x reaaliaikaisesti GPU:issa. Tunnin äänitiedosto valmistuu alle 1 minuutissa, pidempi tiedostojono ja ilmoitus sähköpostitse, kun se on tehty.
SenseVoice:ssa on 234M parametria. Suuremmat mallit ovat yleensä tarkempia, mutta hitaampia; STT.ai isännöi SenseVoice:a GPU:ssa, joten parametrien määrä ei vaikuta asiakaspuolen suorituskykyyn.
SenseVoice hyväksyy jokaisen formaatin STT.ai tukea: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI ja muut. Tuotos on TXT, SRT, VTT, DOCX, JSON tai PDF.
Kyllä. Kaiuttimen diarisointi kulkee SenseVoice:n rinnalla jokaista transkriptiota kohden – jokainen puhuja on merkitty, ja voit nimetä sen myöhemmin uudelleen päätoimittajaksi.
Kyllä. SenseVoice kulkee hallitussa ympäristössämme – ääntä käsitellään ja poistetaan oletuksena, eikä sitä koskaan käytetä harjoitteluun ilman nimenomaista opt-iniä. Pro suunnittelee lisäävänsä asiakaspuolen salauksen selostuksiin levossa.
Verrattuna ensimmäiseen työkaluun voit ajaa SenseVoice muuta saman äänen avulla tuettua mallia vastaan – näet WER:n, segmentin, kaiuttimen tarroja ja itseluottamuspisteitä vierekkäin. SenseVoice vs. Whisper Large V3 -vertailu on yleisin.
Kyllä. Määrittele "sensevoice" mallimuuttujaksi /v1/transcribe-päätetapahtumassa. Python ja Node.js SDKs sisältävät SenseVoice esimerkkiä. Vapaa API-taso sisältää 100 minuuttia kuukaudessa.
Kyllä. Koska SenseVoice on MIT-lisensoitu, voit itse isännöidä sitä. STT.ai:n avoimen lähdekoodin sivulla on listattu projektin repo ja painot. Useimmat tuotantoryhmät käyttävät isäntäversiotamme jättääkseen GPU-hankinnat, mallivaihdot ja opsit väliin.