सह ट्रान्सक्राइब SenseVoice

सार्वजनिकरित्या उपलब्ध ऑडिओ व व्हिडीओ सह कार्य करते. DRM-संरक्षित घटक समर्थीत नाही.

वाढविण्याकरीता अद्ययावत करा
Private transcript
transcript सह गप्पा मारत आहे
Pro सह कुलूपबंद करा →
फाइल इथे टाका किंवा संचारन करीता क्लिक करा
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM —2GB पर्यंत
वाढविण्याकरीता अद्ययावत करा
Private transcript
transcript सह गप्पा मारत आहे
Pro सह कुलूपबंद करा →
वाढविण्याकरीता अद्ययावत करा
रेकॉर्डिंग: 0:00
वास्तविक वेळ वॉश (तात्पुरते)
वाढविलेले Whisper (अचूक)
२४ तासांचा वीजपुरवठा हिवाळ्यात (ऑक्टोबर-मार्च) प्रतिदिवस घरगुती वापरासाठी उपलब्ध आहे. · नोंदणी करा 7d + ऑडिओ करीता · प्रो खाजगी लिंक करीता

वास्तविक वेळ वाणी ते पाठ्य. तुम्ही बोलता तेव्हा AI स्वतः सुधारते - अधिक वाणीमुळे अचूकता सुधारते.

प्रथम मायक्रोफोनची चाचणी करा
❤️ STT.ai ला आवडते का? आपल्या मित्रांना सांगा!
तुम्ही तुमचे मोफत शब्दलेखन वापरले आहे

या योजनेत दरमहा १०० रुपये देऊन, ५० हजार रुपयांपर्यंतचे कर्ज मिळू शकते.

10 मोकळे मिनिट/दिवस 600 मिमी पर्यंतचा मारा करू शकतो. क्रेडीट कार्ड नाही गुप्त रीतीने
मोफत नोंदणी करा →
5.5%
WER
50
Languages
50.0x
Speed
MIT
License

बद्दल SenseVoice

SenseVoice is a speech foundation model from FunAudioLLM that goes beyond transcription. It supports 50+ languages and includes capabilities for emotion recognition, audio event detection, and inverse text normalization in a single model.

वारंवार विचारले जाणारे प्रश्न

८८०००१ हे FunAudioLLM द्वारे भाषण-ते-पाठ्य मॉडेल आहे. STT.ai आपल्या GPU पायाभूत सुविधावर SenseVoice चे यजमान आहे जेणेकरून आपण स्वतःचे हार्डवेअर पुरविल्याशिवाय ते वापरू शकता - ऑडिओ किंवा व्हिडिओ अपलोड करा आणि मॉडेल निवडक SenseVoice निवडा.

SenseVoice% शब्द त्रुटी दर मानक बेंचमार्कवर, SenseVoice प्राप्त करते. वास्तविक विश्वातील अचूकता ऑडिओ गुणवत्ता, उच्चार आणि भाषावर अवलंबून असते; गडबड किंवा उच्चारलेल्या रेकॉर्डिंगसाठी, काही टक्के अधिक WER ची अपेक्षा करा.

SenseVoice runs on STT.ai's free tier — every visitor gets 600 minutes/month at no cost. Paid plans add longer per-file limits, private transcripts, and priority queueing.

SenseVoice MIT अंतर्गत जारी केले आहे, एक अनुमती मुक्त-स्रोत परवाना. आपण स्वतःच्या हार्डवेअरवर SenseVoice स्वयं-होस्ट करू शकता किंवा आमच्या होस्ट केलेल्या आवृत्ती वापरू शकता - दोन्ही व्यावसायिक वापरासाठी आहेत.

SenseVoice 50 भाषांना समर्थन देतो. स्वयं-शोधने बहुतेक ऑडिओ करीता योग्य भाषा निवडते; तुम्ही थोडी अचूकता वाढविण्याकरीता स्वतःच ते निश्चित करू शकता.

SenseVoice ऑडिओ प्रक्रिया आपल्या GPU वर 50.0x वास्तविक वेळेत करते. 1 तास ऑडिओ फाइल 1 मिनिटांच्या आत पूर्ण होते; लांब फाइल कतार आणि पूर्ण झाल्यावर ईमेल द्वारे सूचना.

SenseVoice मध्ये 234M पैरामीटर आहेत. मोठे मॉडेल अधिक अचूक पण मंद असतात; STT.ai GPU वर SenseVoice चे यजमान आहे त्यामुळे पैरामीटरची संख्या तुमच्या क्लाऐंट-साइड कार्यक्षमतेवर परिणाम करत नाही.

SenseVoice प्रत्येक स्वरूप स्वीकारते STT.ai समर्थन — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, आणि इतर. आऊटपुट TXT, SRT, VTT, DOCX, JSON, किंवा PDF म्हणून.

SenseVoice प्रत्येक प्रतीसाठी स्पीकर डायराइजेशन सोबत चालते - प्रत्येक स्पीकर लेबल केले जाते आणि आपण संपादकात नंतर त्यांना पुनर्नामांकित करू शकता.

SenseVoice आमच्या व्यवस्थापित वातावरणात चालते - ऑडिओ प्रक्रिया आणि मुलभूतरित्या काढून टाकली जाते आणि स्पष्टपणे निवडल्याशिवाय प्रशिक्षणासाठी कधीही वापरले जात नाही. प्रो योजना स्थिर ट्रान्सक्रिप्टसाठी क्लायंट-साइड एन्क्रिप्शन जोडते.

SenseVoice विरुद्ध इतर कोणत्याही समर्थित मॉडेलवर तेच ऑडिओ चालविण्यासाठी तुलना-stt साधन वापरा - तुम्हाला WER, खंडांची संख्या, स्पीकर लेबल आणि विश्वासार्हता गुण पाहायचे आहेत. SenseVoice विरुद्ध Whisper Large V3 तुलना सर्वात सामान्यपणे चालविली जाते.

होय. /v1/transcribe endpoint वर मॉडेल परिमाण म्हणून "sensevoice" निर्देशित करा. Python आणि Node.js SDKs मध्ये SenseVoice उदाहरणे समाविष्ट आहेत. मोफत API स्तरात 100 मिनिट / महिन्याचा समावेश आहे.

होय. SenseVoice हे MIT-लाइसेन्स्ड आहे, म्हणून तुम्ही ते स्वतःच होस्ट करू शकता. STT.ai चे ओपन सोर्स पान प्रकल्प रेपो आणि वजनांची यादी दर्शवते. बहुतेक उत्पादन संघ GPU खरेदी, मॉडेल स्वॅप्स आणि ऑप्स सोडण्यासाठी आमची होस्ट केलेली आवृत्ती वापरतात.