Transcribe with SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
About SenseVoice
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Жиі қойылатын сұрақтар
SenseVoice - FunAudioLLM- нің сөйлеуден мәтінге аудару үлгісі. STT.ai- дің SenseVoice- ді графикалық процессордың инфрақұрылымы қолдайды, сондықтан оны өзіңіздің жабдықтарыңызды қоспай- ақ қолдана аласыз - аудио не видеоны жүктеп, үлгіні таңдау құралынан SenseVoice- ді таңдаңыз.
Стандартты тексерулерде SenseVoice шамамен 5.5% сөз қателігіне ие. Тілдегі қателіктердің шынайы дәлдігі дыбыс сапасына, акцентіне және тіліне байланысты; шулы немесе акцентті жазбалар үшін WER бірнеше пайызға жоғары болады.
SenseVoice STT.ai-ның тегін деңгейінде жұмыс істейді — әрбір келуші айына 600 минутты тегін алады. Ақылы жоспарлар файлға қысқа шектеулер, жеке транскрипциялар және артықшылық кезекті қосады.
SenseVoice MIT ашық-көздік лицензиясымен шығарылған. Сіз SenseVoice-ді өзіңіздің жабдықтарыңызда немесе біздің хостинг нұсқамызды қолданып, өзіңізде орната аласыз - екеуі де коммерциялық мақсатта қолданылады.
SenseVoice 50 тілдерді қолдайды. Аудио файлдардың көпшілігі үшін тіл автоматты түрде анықталады; бірақ, дәлдігін арттыру үшін оны қолмен де келтіруге болады.
SenseVoice аудионы біздің графикалық процессорларда 50.0x жылдамдықпен өңдейді. 1 сағаттық аудио файлды өңдеу 1 минуттан аз уақытты алады; ұзақ файлдар кезекке тұрып, орындалғанда эл. пошта арқылы хабарланады.
SenseVoice- нің 234M параметрлері бар. Үлкен модельдер нақтылығы жоғары, бірақ баяу; STT.ai- дің графикалық процессорында SenseVoice бар, сондықтан параметрлер саны клиенттік жағының жылдамдығына әсер етпейді.
SenseVoice STT.ai қолдайтын барлық пішімдерді қабылдайды — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI және басқалары. Шығыс TXT, SRT, VTT, DOCX, JSON немесе PDF.
Иә. Дикторлар тізімі әрбір транскрипция үшін SenseVoice- мен бірге орындалады - әрбір дыбыс шығарушы белгіленеді, содан кейін редакторда қайта атауға болады.
Иә. SenseVoice біздің басқару ортамызда орындалады — аудио әдетті түрде өңделеді және өшіріледі, және ешқашан да рұқсатсыз оқыту үшін қолданылмайды. Pro жоспары клиенттік тараптан тыныштықтағы транскрипттерді шифрлауды қосады.
compare-stt құралын пайдаланып, SenseVoice-ді басқа қолдау көрсетілетін модельдермен салыстырып көріңіз. WER, сегменттер саны, динамиктердің жарлықтары және сенімділік көрсеткіштері қатар көрсетіледі. SenseVoice мен Whisper Large V3 салыстыруы жиі қолданылады.
Иә. /v1/transcribe аяқтау нүктесіндегі модель параметрі ретінде "sensevoice" дегенді келтіріңіз. Python және Node.js SDK- лары SenseVoice мысалдарды қамтиды. API- ның тегін деңгейі 100 минут/ ай.
Иә. SenseVoice MIT лицензиясымен шыққандықтан, оны өзіңіз хост ете аласыз. STT.ai ашық көздер бетінде жобаның репозиториясы мен салмағы көрсетілген. Өндірістік топтардың көбі біздің хост нұсқамызды GPU сатып алу, модельдерді алмастыру және операцияларды өткізіп жіберу үшін пайдаланады.