Transcribe with SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
About SenseVoice
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Заримдаа асуудаг асуултууд
SenseVoice нь FunAudioLLM-ийн ярианаас текст болгох загвар юм. STT.ai нь SenseVoice-ийг бидний график процессорын дэд бүтцэд байрлуулсан тул та өөрийнхөө тоног төхөөрөмжийг ашиглахгүйгээр ашиглаж болно. Аудио болон видеог татаж авч, загвар сонгогчоос SenseVoice-ийг сонгоно уу.
Стандарт үзүүлэлтээр SenseVoice нь 5.5% үгийн алдааны түвшинг хангадаг. Үнэн хэрэгтээ энэ нь дууны чанар, өнгө, хэлнээс хамаарна. Хөгжим дуугарч байгаа үед WER-ийг хэд хэдэн хувь нэмэгдүүлэх хэрэгтэй.
SenseVoice нь STT.ai-ийн үнэгүй түвшинд ажилладаг - бүх зочид 600 минут/сар үнэгүй авдаг. Үнэтэй төлөвлөгөө нь файл бүрийн урт хязгаар, хувийн бичлэг, болон нэн тэргүүний гүйлгээний жагсаалтыг нэмдэг.
SenseVoice нь MIT, нээлттэй эхийн лицензийн дор гарсан. Та SenseVoice-ийг өөрийнхөө тоног төхөөрөмж дээр байршуулж эсвэл манай байршуулсан хувилбарыг ашиглаж болно. Хоёулаа худалдааны зориулалттай.
SenseVoice нь 50 хэлийг дэмждэг. Автомат олж илрүүлэх нь олон аудиод тохирох хэлийг сонгоно. Та үүнийг гараараа тодорхойлж, бага зэрэг нарийвчлал нэмэгдүүлэх боломжтой.
SenseVoice нь бидний GPU дээр 50.0x бодит цагаар аудиог боловсруулдаг. 1 цагийн аудио файл 1 минутын дотор дуусна; урт файлууд дараалалд орж дууссаны дараа имэйлээр мэдэгдэнэ.
SenseVoice нь 234M параметртэй. Том загварууд илүү нарийвчлалтай боловч хурд багатай байдаг; STT.ai нь SenseVoice-ийг график процессор дээр байрлуулдаг тул параметрийн тоо нь таны клиентийн талд нөлөөлөхгүй.
SenseVoice нь STT.ai-ийн дэмждэг бүх форматыг хүлээн авдаг - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, болон бусад. Түүний гаралт нь TXT, SRT, VTT, DOCX, JSON, эсвэл PDF.
Тийм ээ. Бүх бичлэгийн хувьд SenseVoice-тай хамт дуут дохионы тэмдэглэгээ хийгддэг. Бүх дуут дохионууд нь тэмдэглэгээтэй бөгөөд редакторт нэрийг нь өөрчилж болно.
Тийм. SenseVoice нь бидний удирдсан орчинд ажилладаг — аудио нь урьдчилан боловсруулж устгагдсан бөгөөд тодорхой зөвшөөрөлгүйгээр хэзээ ч сургалтанд ашиглагддаггүй. Pro төлөвлөгөө нь хэвийн үед хадгалагдсан бичлэгийг клиентийн талд шифрлэдэг.
SenseVoice-ийг дэмждэг бусад загвартай харьцуулахад compare-stt хэрэгслийг ашиглана уу. Та WER, сегментийн тоо, дуут дохионы тэмдэг, найдвартай байдлын оноог хамтдаа харах болно. SenseVoice-ийг Whisper Large V3-тэй харьцуулах нь хамгийн түгээмэл хийгддэг.
Тийм. /v1/transcribe төгсгөлийн цэгт "sensevoice" загварын параметрийг заана уу. Python болон Node.js SDK-д SenseVoice жишээ багтсан. Үнэгүй API түвшин нь сарын 100 минутыг багтаасан.
Тийм ээ. SenseVoice нь MIT лицензтэй тул та үүнийг өөрийнхөө сервер дээр байрлуулж болно. STT.ai-ийн нээлттэй эхийн хуудас нь төслийн репозитори болон жингүүдийг жагсаана. Ихэнх үйлдвэрлэлийн багууд бидний хостлагдсан хувилбарыг GPU худалдан авалт, загвар солилцоо, үйл ажиллагааг орхиход ашигладаг.