यासह ट्रान्सक्रिप्शन करा SenseVoice

Name: SenseVoice
Author: FunAudioLLM

सार्वजनिकरित्या उपलब्ध ऑडिओ व व्हिडीओ सह कार्य करते. DRM-संरक्षित घटक समर्थीत नाही.

वाढविण्याकरीता अद्ययावत करा

खाजगी प्रत

transcript सह गप्पा मारत आहे

Pro सह कुलूपबंद करा →

फाइल इथे टाका किंवा संचारन करीता क्लिक करा

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM —2GB पर्यंत

बॅच अपलोड करा प्रो सह

वाढविण्याकरीता अद्ययावत करा

खाजगी प्रत

transcript सह गप्पा मारत आहे

Pro सह कुलूपबंद करा →

वाढविण्याकरीता अद्ययावत करा

वास्तविक वेळ वाणी ते पाठ्य. तुम्ही बोलता तेव्हा AI स्वतः सुधारते - अधिक वाणीमुळे अचूकता सुधारते.

प्रथम मायक्रोफोनची चाचणी करा

10 मोकळे मिनिट/दिवस 600 मिमी पर्यंतचा मारा करू शकतो. क्रेडीट कार्ड नाही गुप्त रीतीने

मोफत नोंदणी करा →

5.5%

WER

भाषाName

50.0x

वेग

MIT

परवाना

विषयी SenseVoice

सेंसेव्हॉईस हे FunAudioLLM पासून एक भाषण आधार मॉडेल आहे जे ट्रांसक्रिप्शन पेक्षा जास्त आहे. ते 50 + भाषांना समर्थन देते आणि भावना ओळखण्यासाठी क्षमता समाविष्ट करते, ऑडिओ घटना शोध, आणि एका मॉडेलमध्ये उलट पाठ्य सामान्यीकरण.

समर्थीत भाषाName SenseVoice

इंग्रजी

स्पॅनिश

फ्रेंच

जर्मन

चीनी

जपानी

कोरियन

पोर्तुगीज

अरबी

हिंदी

रशियन

इटालियन

डच

तुर्की

पोलिश

स्वीडिश

इंडोनेशियन

थाई

व्हिएतनामी

झेक

ग्रीक

रोमानियन

हंगेरियन

हिब्रू

डॅनिश

फिनिश

नॉर्वेजियन

युक्रेनियन

मलय

बंगाली

नमूना माहिती

पुरवठाकर्ताFunAudioLLM
आर्किटेक्चर-
परवानाMIT
अद्ययावतMar 2026

वारंवार विचारले जाणारे प्रश्न

८८०००१ हे FunAudioLLM द्वारे भाषण-ते-पाठ्य मॉडेल आहे. STT.ai आपल्या GPU पायाभूत सुविधावर SenseVoice चे यजमान आहे जेणेकरून आपण स्वतःचे हार्डवेअर पुरविल्याशिवाय ते वापरू शकता - ऑडिओ किंवा व्हिडिओ अपलोड करा आणि मॉडेल निवडक SenseVoice निवडा.

SenseVoice% शब्द त्रुटी दर मानक बेंचमार्कवर, SenseVoice प्राप्त करते. वास्तविक विश्वातील अचूकता ऑडिओ गुणवत्ता, उच्चार आणि भाषावर अवलंबून असते; गडबड किंवा उच्चारलेल्या रेकॉर्डिंगसाठी, काही टक्के अधिक WER ची अपेक्षा करा.

SenseVoice runs on STT.ai's free tier — every visitor gets 600 minutes/month at no cost. Paid plans add longer per-file limits, private transcripts, and priority queueing.

SenseVoice MIT अंतर्गत जारी केले आहे, एक अनुमती मुक्त-स्रोत परवाना. आपण स्वतःच्या हार्डवेअरवर SenseVoice स्वयं-होस्ट करू शकता किंवा आमच्या होस्ट केलेल्या आवृत्ती वापरू शकता - दोन्ही व्यावसायिक वापरासाठी आहेत.

SenseVoice 50 भाषांना समर्थन देतो. स्वयं-शोधने बहुतेक ऑडिओ करीता योग्य भाषा निवडते; तुम्ही थोडी अचूकता वाढविण्याकरीता स्वतःच ते निश्चित करू शकता.

SenseVoice ऑडिओ प्रक्रिया आपल्या GPU वर 50.0x वास्तविक वेळेत करते. 1 तास ऑडिओ फाइल 1 मिनिटांच्या आत पूर्ण होते; लांब फाइल कतार आणि पूर्ण झाल्यावर ईमेल द्वारे सूचना.

SenseVoice मध्ये 234M पैरामीटर आहेत. मोठे मॉडेल अधिक अचूक पण मंद असतात; STT.ai GPU वर SenseVoice चे यजमान आहे त्यामुळे पैरामीटरची संख्या तुमच्या क्लाऐंट-साइड कार्यक्षमतेवर परिणाम करत नाही.

SenseVoice प्रत्येक स्वरूप स्वीकारते STT.ai समर्थन — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, आणि इतर. आऊटपुट TXT, SRT, VTT, DOCX, JSON, किंवा PDF म्हणून.

SenseVoice प्रत्येक प्रतीसाठी स्पीकर डायराइजेशन सोबत चालते - प्रत्येक स्पीकर लेबल केले जाते आणि आपण संपादकात नंतर त्यांना पुनर्नामांकित करू शकता.

SenseVoice आमच्या व्यवस्थापित वातावरणात चालते - ऑडिओ प्रक्रिया आणि मुलभूतरित्या काढून टाकली जाते आणि स्पष्टपणे निवडल्याशिवाय प्रशिक्षणासाठी कधीही वापरले जात नाही. प्रो योजना स्थिर ट्रान्सक्रिप्टसाठी क्लायंट-साइड एन्क्रिप्शन जोडते.

SenseVoice विरुद्ध इतर कोणत्याही समर्थित मॉडेलवर तेच ऑडिओ चालविण्यासाठी तुलना-stt साधन वापरा - तुम्हाला WER, खंडांची संख्या, स्पीकर लेबल आणि विश्वासार्हता गुण पाहायचे आहेत. SenseVoice विरुद्ध Whisper Large V3 तुलना सर्वात सामान्यपणे चालविली जाते.

होय. /v1/transcribe endpoint वर मॉडेल परिमाण म्हणून "sensevoice" निर्देशित करा. Python आणि Node.js SDKs मध्ये SenseVoice उदाहरणे समाविष्ट आहेत. मोफत API स्तरात 100 मिनिट / महिन्याचा समावेश आहे.

होय. SenseVoice हे MIT-लाइसेन्स्ड आहे, म्हणून तुम्ही ते स्वतःच होस्ट करू शकता. STT.ai चे ओपन सोर्स पान प्रकल्प रेपो आणि वजनांची यादी दर्शवते. बहुतेक उत्पादन संघ GPU खरेदी, मॉडेल स्वॅप्स आणि ऑप्स सोडण्यासाठी आमची होस्ट केलेली आवृत्ती वापरतात.

यासह ट्रान्सक्रिप्शन करा SenseVoice

विषयी SenseVoice

समर्थीत भाषाName SenseVoice

नमूना माहिती

संबंधित आवृत्ती

वारंवार विचारले जाणारे प्रश्न

८८,००० आहे.

८८,००० इतकी आहे.

८८,००० इतकी होती.

८८,००० इतकी आहे.

SenseVoice किती भाषांना समर्थन देते?

८८,००० किती वेगवान आहे?

SenseVoice मॉडेल किती मोठं आहे?

यामध्ये अनुसूचित जातीचे लोक ८८८ असून अनुसूचित जमातीचे ८ लोक आहेत.

८८,००० प्रेक्षकांची क्षमता आहे.

याचे क्षेत्रफळ ८८,००० चौ.

८८,००० पेक्षा जास्त लोकसंख्येसाठी हे शहर ओळखले जाते.

८८००० पर्यंत वापरता येते.

८८,००० पेक्षा जास्त लोक यामध्ये सहभागी झाले होते.