Transcribe with SenseVoice

Punon me audio dhe video në dispozicion publikisht. Përmbajtja e mbrojtur me DRM nuk suportohet.

Përmirëso për të Përmirësuar
Private transcript
Chat me transkriptim
Zhblloko me Pro →
Lëviz file këtu ose kliko për të shfletuar
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — deri në 2GB
Përmirëso për të Përmirësuar
Private transcript
Chat me transkriptim
Zhblloko me Pro →
Përmirëso për të Përmirësuar
Inçizimi: 0:00
Koha reale Dylli (i menjëhershëm)
Përmirësuar Pëshpëritja (e saktë)
Lidhje publike: 24h, vetëm tekst · Regjistrohu për 7d + audio · Pro për lidhje private

Fjalë në tekst në kohë reale. AI auto-korrigjon ndërsa flet — saktësia përmirësohet me fjalë më të gjata.

Testo së pari mikrofonin tënd
❤️ Të pëlqen STT.ai?
Ke përdorur transkriptimet e tua falas.

Regjistrohu falas për të marrë 600 minuta në muaj, ose përmirëso për transkriptime të pakufizuara.

10 minuta të lira në ditë 600 min pa pagesë me regjistrim Pa kartë krediti E kriptuar
Regjistrohu falas →
5.5%
WER
50
Languages
50.0x
Speed
MIT
License

About SenseVoice

Pyetje të shpeshta

SenseVoice është një model i fjalës në tekst nga FunAudioLLM. STT.ai mban SenseVoice në infrastrukturën tonë të GPU kështu që mund ta përdorni pa furnizuar hardware-in tuaj — ngarkoni audion ose videon dhe zgjidhni SenseVoice nga zgjedhësi i modelit.

Në standartet e vlerësimit, SenseVoice arrin rreth 5.5% të normave të gabimeve të fjalëve. Saktësia në botën reale varet nga cilësia e audios, theksi dhe gjuha; për regjistrime me zhurmë ose theks, prit disa përqindje më të larta WER.

SenseVoice punon në nivelin e lirë të STT.ai — çdo vizitor merr 600 minuta në muaj pa kosto. Planet e paguar shtojnë kufizime më të gjata për file, transkripta private dhe renditje në radhë me përparësi.

SenseVoice është lëshuar nën MIT, një licencë e hapur e hapur. Mund të vetë-hostoni SenseVoice në hardware-in tuaj ose të përdorni versionin tonë të pritur — të dy janë komercialisht të përdorshëm.

SenseVoice suporton 50 gjuhë. Zbulimi automatik zgjedh gjuhën e duhur për shumicën e audiove; mund ta specifikoni gjithashtu manualisht për një rritje të vogël të saktësisë.

SenseVoice përpunon audion në rreth 50.0x në kohë reale në GPU-të tona. Një file audio 1 orë përfundon në më pak se 1 minuta; file më të gjatë vënë në radhë dhe njoftohen me email kur përfundojnë.

SenseVoice ka parametrat 234M. Modelet më të mëdha priren të jenë më të sakta por më të ngadalshme; STT.ai hosts SenseVoice në GPU kështu që numërimi i parametrave nuk ndikon në performancën e anës së klientit.

SenseVoice pranon çdo format që suporton STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, dhe të tjerë. Shfaq si TXT, SRT, VTT, DOCX, JSON, ose PDF.

Po. Diarization e folësit punon së bashku me SenseVoice për çdo transkriptim - çdo folës është i etiketuar dhe mund t'i riemërtoni ata në editor më pas.

Po. SenseVoice punon në mjedisin tonë të menazhuar — audiot përpunohen dhe eleminohen në mënyrë të prezgjedhur dhe nuk përdoren kurrë për trainim pa opsion të hapur. Planet Pro shtojnë kriptimin në anën e klientit për transkriptat në pushim.

Përdor instrumentin compare-stt për të ekzekutuar SenseVoice kundër çdo modeli tjetër të suportuar në të njëjtin audio — do të shihni WER, numrin e segmenteve, etiketat e folësve dhe rezultatet e besimit krah-për-krah. Krahasimi SenseVoice vs Whisper Large V3 është më i zakonshmi.

Po. Specifiko "sensevoice" si parametri i modelit në /v1/transcribe endpoint. Python dhe Node.js SDK përfshijnë shembuj SenseVoice. Niveli i API pa pagesë përfshin 100 minuta në muaj.

Po. Sepse SenseVoice është i licencuar MIT, mund ta hostosh vetë. Faqja e burimit të hapur të STT.ai-ës përmban listën e projektit dhe peshat. Shumica e ekipeve të prodhimit përdorin versionin tonë të pritur për të kaluar GPU-në, modelin e shkëmbimit dhe operacionet.