यासह ट्रान्सक्रिप्शन करा Vosk

Name: Vosk
Author: Alpha Cephei

सार्वजनिकरित्या उपलब्ध ऑडिओ व व्हिडीओ सह कार्य करते. DRM-संरक्षित घटक समर्थीत नाही.

वाढविण्याकरीता अद्ययावत करा

खाजगी प्रत

transcript सह गप्पा मारत आहे

Pro सह कुलूपबंद करा →

फाइल इथे टाका किंवा संचारन करीता क्लिक करा

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM —2GB पर्यंत

बॅच अपलोड करा प्रो सह

वाढविण्याकरीता अद्ययावत करा

खाजगी प्रत

transcript सह गप्पा मारत आहे

Pro सह कुलूपबंद करा →

वाढविण्याकरीता अद्ययावत करा

वास्तविक वेळ वाणी ते पाठ्य. तुम्ही बोलता तेव्हा AI स्वतः सुधारते - अधिक वाणीमुळे अचूकता सुधारते.

प्रथम मायक्रोफोनची चाचणी करा

10 मोकळे मिनिट/दिवस 600 मिमी पर्यंतचा मारा करू शकतो. क्रेडीट कार्ड नाही गुप्त रीतीने

मोफत नोंदणी करा →

12.0%

WER

भाषाName

100.0x

वेग

Apache 2.0

परवाना

विषयी Vosk

वोस्क एक ऑफलाइन वक्तृत्व ओळखणी साधन आहे जे इंटरनेट जोडणीशिवाय कार्य करते. ते 20+ भाषांना समर्थन देते जे मोबाईल साधन, रास्पबेरी पाई, आणि कोणत्याही प्लॅटफॉर्मवर चालवू शकते. Kaldi आणि Zipformer आर्किटेक्चरवर बनविले गेले आहे.

समर्थीत भाषाName Vosk

इंग्रजी

स्पॅनिश

फ्रेंच

जर्मन

चीनी

जपानी

कोरियन

पोर्तुगीज

अरबी

हिंदी

रशियन

इटालियन

डच

तुर्की

पोलिश

स्वीडिश

इंडोनेशियन

व्हिएतनामी

झेक

ग्रीक

नमूना माहिती

पुरवठाकर्ताAlpha Cephei
आर्किटेक्चर-
परवानाApache 2.0
अद्ययावतMar 2026

वारंवार विचारले जाणारे प्रश्न

८८०००१ हे Alpha Cephei द्वारे भाषण-ते-पाठ्य मॉडेल आहे. STT.ai आपल्या GPU पायाभूत सुविधावर Vosk चे यजमान आहे जेणेकरून आपण स्वतःचे हार्डवेअर पुरविल्याशिवाय ते वापरू शकता - ऑडिओ किंवा व्हिडिओ अपलोड करा आणि मॉडेल निवडक Vosk निवडा.

Vosk% शब्द त्रुटी दर मानक बेंचमार्कवर, Vosk प्राप्त करते. वास्तविक विश्वातील अचूकता ऑडिओ गुणवत्ता, उच्चार आणि भाषावर अवलंबून असते; गडबड किंवा उच्चारलेल्या रेकॉर्डिंगसाठी, काही टक्के अधिक WER ची अपेक्षा करा.

Vosk runs on STT.ai's free tier — every visitor gets 600 minutes/month at no cost. Paid plans add longer per-file limits, private transcripts, and priority queueing.

Vosk Apache 2.0 अंतर्गत जारी केले आहे, एक अनुमती मुक्त-स्रोत परवाना. आपण स्वतःच्या हार्डवेअरवर Vosk स्वयं-होस्ट करू शकता किंवा आमच्या होस्ट केलेल्या आवृत्ती वापरू शकता - दोन्ही व्यावसायिक वापरासाठी आहेत.

Vosk 20 भाषांना समर्थन देतो. स्वयं-शोधने बहुतेक ऑडिओ करीता योग्य भाषा निवडते; तुम्ही थोडी अचूकता वाढविण्याकरीता स्वतःच ते निश्चित करू शकता.

Vosk ऑडिओ प्रक्रिया आपल्या GPU वर 100.0x वास्तविक वेळेत करते. 1 तास ऑडिओ फाइल 1 मिनिटांच्या आत पूर्ण होते; लांब फाइल कतार आणि पूर्ण झाल्यावर ईमेल द्वारे सूचना.

Vosk मध्ये 50M पैरामीटर आहेत. मोठे मॉडेल अधिक अचूक पण मंद असतात; STT.ai GPU वर Vosk चे यजमान आहे त्यामुळे पैरामीटरची संख्या तुमच्या क्लाऐंट-साइड कार्यक्षमतेवर परिणाम करत नाही.

Vosk प्रत्येक स्वरूप स्वीकारते STT.ai समर्थन — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, आणि इतर. आऊटपुट TXT, SRT, VTT, DOCX, JSON, किंवा PDF म्हणून.

Vosk प्रत्येक प्रतीसाठी स्पीकर डायराइजेशन सोबत चालते - प्रत्येक स्पीकर लेबल केले जाते आणि आपण संपादकात नंतर त्यांना पुनर्नामांकित करू शकता.

Vosk आमच्या व्यवस्थापित वातावरणात चालते - ऑडिओ प्रक्रिया आणि मुलभूतरित्या काढून टाकली जाते आणि स्पष्टपणे निवडल्याशिवाय प्रशिक्षणासाठी कधीही वापरले जात नाही. प्रो योजना स्थिर ट्रान्सक्रिप्टसाठी क्लायंट-साइड एन्क्रिप्शन जोडते.

Vosk विरुद्ध इतर कोणत्याही समर्थित मॉडेलवर तेच ऑडिओ चालविण्यासाठी तुलना-stt साधन वापरा - तुम्हाला WER, खंडांची संख्या, स्पीकर लेबल आणि विश्वासार्हता गुण पाहायचे आहेत. Vosk विरुद्ध Whisper Large V3 तुलना सर्वात सामान्यपणे चालविली जाते.

होय. /v1/transcribe endpoint वर मॉडेल परिमाण म्हणून "vosk" निर्देशित करा. Python आणि Node.js SDKs मध्ये Vosk उदाहरणे समाविष्ट आहेत. मोफत API स्तरात 100 मिनिट / महिन्याचा समावेश आहे.

होय. Vosk हे Apache 2.0-लाइसेन्स्ड आहे, म्हणून तुम्ही ते स्वतःच होस्ट करू शकता. STT.ai चे ओपन सोर्स पान प्रकल्प रेपो आणि वजनांची यादी दर्शवते. बहुतेक उत्पादन संघ GPU खरेदी, मॉडेल स्वॅप्स आणि ऑप्स सोडण्यासाठी आमची होस्ट केलेली आवृत्ती वापरतात.

यासह ट्रान्सक्रिप्शन करा Vosk

विषयी Vosk

समर्थीत भाषाName Vosk

नमूना माहिती

संबंधित आवृत्ती

वारंवार विचारले जाणारे प्रश्न

८८,००० आहे.

८८,००० इतकी आहे.

८८,००० इतकी होती.

८८,००० इतकी आहे.

Vosk किती भाषांना समर्थन देते?

८८,००० किती वेगवान आहे?

Vosk मॉडेल किती मोठं आहे?

यामध्ये अनुसूचित जातीचे लोक ८८८ असून अनुसूचित जमातीचे ८ लोक आहेत.

८८,००० प्रेक्षकांची क्षमता आहे.

याचे क्षेत्रफळ ८८,००० चौ.

८८,००० पेक्षा जास्त लोकसंख्येसाठी हे शहर ओळखले जाते.

८८००० पर्यंत वापरता येते.

८८,००० पेक्षा जास्त लोक यामध्ये सहभागी झाले होते.