ನೊಂದಿಗೆ ಲಿಪ್ಯಂತರ SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
ಬಗ್ಗೆ SenseVoice
SenseVoice is a speech foundation model from FunAudioLLM that goes beyond transcription. It supports 50+ languages and includes capabilities for emotion recognition, audio event detection, and inverse text normalization in a single model.
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
ಪದೇ ಪದೇ ಕೇಳುವ ಪ್ರಶ್ನೆಗಳು
೮೮೦೦ ಯು ಒಂದು ವಾಕ್- ಪಠ್ಯ ಮಾದರಿ 8882. STT.ai ಆತಿಥೇಯಗಳು ನಮ್ಮ GPU ಗಣಕದಲ್ಲಿ SenseVoice ನೀವು ಇದನ್ನು ಉಪಯೋಗಿಸಬಹುದು ನಿಮ್ಮ ಸ್ವಂತ ಯಂತ್ರಾಂಶಗಳನ್ನು ಒದಗಿಸದೆ. ನಕಲೇರಿಸಿರಿ ಅಥವಾ ವಿಡಿಯೊ ಆಯ್ಕೆ ಮಾಡಿ.
ಮಾನಕ ಬೆಂಚ್ಮಾರ್ಕುಗಳಲ್ಲಿ, SenseVoice ಗಳು 880 01% ಪದ ದೋಷಗಳನ್ನು ಸಾಧಿಸುತ್ತವೆ. ನಿಜವಾದ- ಭೂಗೋಳ ನಿಷ್ಕೃಷ್ಟತೆಯು ಆಡಿಯೋ ಗುಣಮಟ್ಟ, ಆಕ್ಷೇಪಣೆ, ಮತ್ತು ಭಾಷೆಯ ಮೇಲೆ ಹೊಂದಿಕೊಂಡಿರುತ್ತದೆ. ಗದ್ದಲ ಅಥವಾ ಆವರ್ತಿತ ರೆಕಾರ್ಡಿಂಗ್ಗಳಿಗಾಗಿ ಕೆಲವು ಪ್ರತಿಶತ ಅಂಶಗಳು ಹೆಚ್ಚು ನಿರೀಕ್ಷಿಸುತ್ತವೆ.
SenseVoice runs on STT.ai's free tier — every visitor gets 600 minutes/month at no cost. Paid plans add longer per-file limits, private transcripts, and priority queueing.
SenseVoice ಯು ೮೦ ಮುದ್ರಿತ, ಒಂದು ರಕ್ಷಾ ಮುಕ್ತ-ಸಂಸ್ಕಾರ ಲೈಸನ್ಸ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಲಾಗಿದೆ. ನೀವು ನಿಮ್ಮ ಸ್ವಂತ ಯಂತ್ರದ ಮೂಲಕ ಸ್ವ-host SenseVoice ನೀಡಬಹುದು ಅಥವಾ ನಮ್ಮ host ಆವೃತ್ತಿಯನ್ನು ಬಳಸಬಹುದು. ಎರಡೂ ಬಳಕೆಗಳು ವಾಣಿಜ್ಯಾರ್ಥವಾಗಿ ಆಗುತ್ತವೆ.
SenseVoice ಭಾಷೆಗಳು 50 ಭಾಷೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಹೆಚ್ಚಿನ ಆಡಿಯೊಕ್ಕಾಗಿ ಸರಿಯಾದ ಭಾಷೆಯನ್ನು ಆರಿಸುವುದು; ಒಂದು ಚಿಕ್ಕ ಚುಕ್ಕಿ ತೆರಳುವಿಕೆಗಾಗಿ ಇದನ್ನು ಕೈಯಾರೆ ಸೂಚಿಸಬಹುದಾಗಿದೆ.
SenseVoice ಪ್ರಕ್ರಿಯೆಗಳು ನಮ್ಮ GPUS ನಲ್ಲಿ ಆಡಿಯೊ ರಿಯಲ್ಟೈಮ್ ರಿಯಲ್ ಸಮಯ. ಒಂದು ೧- ಗಂಟೆ ಆಡಿಯೋ ಕಡತವು 8802 ನಿಮಿಷಗಳ ಕೆಳಗಿದೆ; ಉದ್ದವಾದ ಕಡತಗಳು ಅನುಕ್ರಮವಾಗಿ ಮುಗಿಸಲ್ಪಡುತ್ತವೆ ಹಾಗು ಇ- ಅಂಚೆ ಮೂಲಕ ಮಾಹಿತಿಯನ್ನು ಒದಗಿಸುತ್ತವೆ.
880೦೦ ಯು 234M ಪ್ರತಿಮೆಗಳನ್ನು ಹೊಂದಿದೆ. ದೊಡ್ಡ ಮಾದರಿಗಳು ಹೆಚ್ಚು ನಿಷ್ಕೃಷ್ಟವಾಗಿವೆ ಆದರೆ STT.ai ಅತಿಥೇಯಗಳು; GPU ನಲ್ಲಿ STT.ai ಅತಿಥೇಯಗಳು 880೦೦ ಆಗಿದ್ದು, ಆ ಕಾರಣದಿಂದ ಆ ವಜ್ರ ಸಂಖ್ಯೆ ನಿಮ್ಮ ಸೇವನಾರ್ಥಿಯ ಕಾರ್ಯಕ್ಷೇತ್ರವನ್ನು ಬಾಧಿಸುವುದಿಲ್ಲ.
SenseVoice accepts every format STT.ai supports — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and others. Output as TXT, SRT, VTT, DOCX, JSON, or PDF.
ಹೌದು, ಭಾಷಣಕರ್ತರು ಪ್ರತಿ ಅಕ್ಷರಮಾಲೆಯಲ್ಲಿ SenseVoiceಕ್ಕೂ ಹೆಚ್ಚು ವೇಗವಾಗಿ ಓಡುತ್ತಾರೆ.
ಹೌದು. SenseVoice ನಮ್ಮ ಸಮರ್ಥವಾದ ಪರಿಸರದಲ್ಲಿ ಚಲನೆಗೊಂಡಿದೆ. ಆಡಿಯೊವನ್ನು ಪೂರ್ವನಿಯೋಜಿತವಾಗಿ ಸಂಸ್ಕರಿಸಲಾಗಿದೆ ಹಾಗು ಅಳಿಸಲಾಗಿದೆ ಮತ್ತು ಯಾವುದೇ ಸ್ಪಷ್ಟವಾದ ಆಪ್ಲೆಟ್- incent ತರಬೇತಿಯನ್ನು ಬಳಸುವುದಿಲ್ಲ. ಪ್ರೋಗ್ರಾಂನಲ್ಲಿ ಫೆಡರಿಟ್-ಭಾಗದ ಗೂಢಲಿಪೀಕರಣವನ್ನು ಸೇರಿಸಿ.
SenseVoice ಪ್ರತಿಬಿಂಬಿತ (ಆಡಿಯೋ) ಮಾದರಿಗೆ ವಿರುದ್ಧವಾದ SenseVoice ಅನ್ನು ಚಲಾಯಿಸಲು ಬಳಸಿ. ನೀವು WER, ಭಾಗದ ಲೆಕ್ಕ, ಭಾಷಣಕಾರಕ ಗುರುತು, ಮತ್ತು ದೃಢಭರವಸೆಯ ಬದಿಯಲ್ಲಿ ಗುರುತುಗಳನ್ನು ಕಾಣುವಿರಿ. SenseVoice ವಿಸ್ಪರ್ ವಿಸ್ಪರ್ ದೊಡ್ಡ ವಿಸ್ಪರ್ ವಿ೩ ನ ತುಣುಕುಗಳು ಹೆಚ್ಚಾಗಿ ಚಾಲನೆಗೊಳ್ಳುತ್ತಿದೆ.
ಹೌದು. "8000" ಅನ್ನು /v1/trance ಹಂತದಲ್ಲಿನ ಮಾದರಿಯ ಅಕ್ಷವಾಗಿ ನಿಗದಿಪಡಿಸು. ಪೈಥಾನ್ ಹಾಗು ನೋಡ್ಸ್ SDKs SenseVoice ಉದಾಹರಣೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಫ್ರೀ API ಬೋರ್ ಅನ್ನು 100 minutes/ minute( 100 minutle) ಹೊಂದಿರುತ್ತದೆ.
೮೮೦೧ ಎಂದರೆ MIT-ಅಂಕಿಯ ವರ್ಗಾವಣೆ ಆಗಿರುವುದರಿಂದ, ನೀವು ಸ್ವಪ್ರಯೋಜನೆ ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ. STT.aiರ ತೆರೆದ ಲೇಬಲ್ ಪುಟ ರೀಪಾ ಹಾಗು ಭಾರಗಳ ಪಟ್ಟಿ. ಹೆಚ್ಚಿನ ಉತ್ಪಾದನಾ ತಂಡಗಳು GPU ಔಟ್ವರ್ಕ್, ಮಾದರಿ ಸ್ಯಾಪ್ಸ್ ಮತ್ತು ops ಅನ್ನು ಕೆಳಕ್ಕೆ ಎಳೆದುಕೊಳ್ಳಲು ನಮ್ಮ ಹವ್ಯಾಸದ ಆವೃತ್ತಿಯನ್ನು ಬಳಸುತ್ತವೆ.