உடன் படியெடு SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
பற்றி SenseVoice
SenseVoice is a speech foundation model from FunAudioLLM that goes beyond transcription. It supports 50+ languages and includes capabilities for emotion recognition, audio event detection, and inverse text normalization in a single model.
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
அடிக்கடி கேக்கப்படும் கேள்விகள்
SenseVoice என்பது FunAudioLLM இல் இருந்து ஒரு உரையாடல்-உரை மாதிரியாகும். STT.ai SenseVoice ஐ எங்கள் GPU கட்டமைப்பில் சேமிக்கிறது, எனவே நீங்கள் உங்கள் சொந்த வன்பொருளை வழங்காமல் அதைப் பயன்படுத்தலாம் - ஒலி அல்லது வீடியோவை ஏற்றி SenseVoice ஐ மாதிரி தேர்விலிருந்து தேர்ந்தெடுக்கவும்.
தரமான அடிப்படைகளில், SenseVoice சுமார் 5.5% வார்த்தையின் தவறு விகிதத்தை அடைகிறது. உண்மையான உலகத்தின் துல்லியமானது ஒலி தரம், உச்சரிப்பு மற்றும் மொழியைப் பொறுத்து உள்ளது; சத்தமான அல்லது உச்சரிக்கப்பட்ட பதிவுகளுக்கு, சில சதவீத புள்ளிகள் அதிகமான WER ஐ எதிர்பார்க்கவும்.
SenseVoice STT.ai ன் இலவச நிலையிலேயே இயங்குகிறது - ஒவ்வொரு பார்வையாளரும் 600 நிமிடங்கள்/மாதத்திற்கு எந்த செலவும் இல்லாமல் பெறுகிறார். கட்டணம் செலுத்தும் திட்டங்கள் கோப்புக்கு அதிக அளவு வரம்புகளை, தனிப்பட்ட நகலெடுப்புகளை, மற்றும் முன்னுரிமை வரிசையை சேர்க்கின்றன.
SenseVoice MIT கீழ் வெளியிடப்பட்டுள்ளது, ஒரு அனுமதிக்கக்கூடிய திறந்த மூல உரிமம். நீங்கள் உங்கள் சொந்த வன்பொருளில் SenseVoice ஐ தாங்களே சேமிக்கலாம் அல்லது எங்கள் சேமிக்கப்பட்ட பதிப்பைப் பயன்படுத்தலாம் - இரண்டும் வணிக ரீதியாக பயன்படுத்தக்கூடியவை.
SenseVoice 50 மொழிகளுக்கு ஆதரவு அளிக்கிறது. தானாகவே கண்டறிதல் பெரும்பாலான ஒலிகளுக்கு சரியான மொழியை தேர்ந்தெடுக்கிறது; நீங்கள் அதை கைமுறையாக சிறிய துல்லியமான உயர்விற்கு குறிப்பிடலாம்.
SenseVoice ஒலியை 50.0x உண்மையான நேரத்தில் எங்கள் GPUs களில் செயலாக்குகிறது. 1 மணி நேர ஒலி கோப்பு 1 நிமிடங்களில் முடிகிறது; நீண்ட கோப்புகள் வரிசைப்படுத்தப்பட்டு முடிந்தவுடன் மின்னஞ்சல் மூலம் அறிவிக்கப்படும்.
SenseVoice க்கு 234M அளவுருக்கள் உள்ளன. பெரிய மாதிரிகள் சரியானவை ஆனால் மெதுவாக இருக்கும்; STT.ai SenseVoice ஐ ஜிபியுவில் கொண்டுள்ளது எனவே அளவுருக்கள் கணக்கீடு உங்கள் வாடிக்கையாளர் பக்க செயல்திறனை பாதிக்காது.
SenseVoice STT.ai ஆதரவுகளை அனைத்து வடிவங்களிலும் ஏற்றுக்கொள்ளும் — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, மற்றும் பிற. வெளியீடு TXT, SRT, VTT, DOCX, JSON, அல்லது PDF.
Yes. Speaker diarization runs alongside SenseVoice for every transcription — each speaker is labeled and you can rename them in the editor afterwards.
ஆமாம். SenseVoice கள் நம் நிர்வகிக்கப்பட்ட சூழலில் இயங்குகின்றன - ஒலி இயங்குகிறது மற்றும் முன்னிருப்பாக நீக்கப்படுகிறது மற்றும் தெளிவான தேர்வு இல்லாமல் பயிற்சிக்கு பயன்படுத்தப்படுவதில்லை. பிரோ திட்டங்கள் நிறுத்தப்பட்டுள்ள பரிமாற்றங்களுக்கு வாடிக்கையாளர்-பக்க மறையாக்கத்தை சேர்க்கின்றன.
ஒரே ஒலியில் SenseVoice ஐ மற்ற ஆதரவு அளிக்கப்பட்ட மாதிரிகளுக்கு எதிராக இயக்க comparison-stt கருவியை பயன்படுத்தவும் - நீங்கள் WER, பிரிவு எண்ணிக்கை, ஒலிபெருக்கி லேபிள்கள், மற்றும் நம்பகத்தன்மை மதிப்பெண்களை பக்கவாட்டில் காணலாம். SenseVoice vs Whisper Large V3 ஒப்பீடு மிகவும் பொதுவாக இயக்கப்படுகிறது.
ஆம். /v1/transcribe முடிவில் "sensevoice" ஐ மாதிரி அளவுருவாக குறிப்பிடவும். பைதான் மற்றும் நோட். ஜேஎஸ் எஸ்டிகேக்களில் SenseVoice உதாரணங்கள் உள்ளன. இலவச API நிலை 100 நிமிடங்கள் / மாதம் உள்ளன.
ஆம். SenseVoice MIT- உரிமம் பெற்றது என்பதால், நீங்கள் அதை தாங்களே நடத்தலாம். STT.ai ன் திறந்த மூலப் பக்கத்தில் திட்டத்தின் ரேபோ மற்றும் எடைகள் பட்டியலிடப்பட்டுள்ளன. பெரும்பாலான தயாரிப்புக் குழுக்கள் எங்கள் நடத்தப்பட்ட பதிப்பைப் பயன்படுத்தி GPU கொள்முதல், மாதிரி மாற்றங்கள் மற்றும் செயல்பாடுகளைத் தவறவிடுகின்றன.