સાથે ટ્રાન્સક્રાઇબ Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
વિશે Vosk
Vosk is an offline speech recognition toolkit that works without an internet connection. It supports 20+ languages with compact models that can run on mobile devices, Raspberry Pi, and any platform. Built on Kaldi and Zipformer architectures.
સમર્થિત ભાષાઓ Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
વારંવાર પૂછાતા પ્રશ્નો
Vosk is a speech-to-text model by Alpha Cephei. STT.ai hosts Vosk on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick Vosk from the model picker.
પ્રમાણભૂત બેન્ચમાર્ક પર, Vosk એ 12.0% શબ્દ ભૂલ દરને આસપાસ મેળવે છે. વાસ્તવિક-વિશ્વની ચોકસાઈ ઓડિયો ગુણવત્તા, ઉચ્ચારણ અને ભાષા પર આધારિત છે; ધુમાડાવાળા અથવા ઉચ્ચારણવાળા રેકોર્ડિંગ માટે, થોડા ટકા પોઇન્ટ્સ ઊંચા WER ની અપેક્ષા રાખો.
Vosk STT.ai ની મુક્ત સ્તરે ચાલે છે - દરેક મુલાકાતીને કોઈ ખર્ચ વગર 600 મિનિટ/મહિના મળે છે. ચૂકવેલ યોજનાઓ લાંબી ફાઇલ મર્યાદા, ખાનગી ટ્રાન્સક્રિપ્ટ્સ અને પ્રાથમિકતા કતાર લગાવવી ઉમેરે છે.
Vosk Apache 2.0 ની નીચે બહાર પાડવામાં આવે છે, એક પરવાનગી આપતી ઓપન-સોર્સ લાઇસન્સ. તમે તમારા પોતાના હાર્ડવેરમાં Vosk ને સ્વયં-હોસ્ટ કરી શકો છો અથવા અમારી હોસ્ટ કરેલ આવૃત્તિનો ઉપયોગ કરી શકો છો - બંને વાણિજ્યિક રીતે ઉપયોગી છે.
Vosk 20 ભાષાઓને આધાર આપે છે. આપમેળે-શોધ એ મોટાભાગના ઓડિયો માટે સાચી ભાષા પસંદ કરે છે; તમે તેને નાની ચોકસાઈ માટે જાતે પણ સ્પષ્ટ કરી શકો છો.
Vosk ઓડિયો પ્રક્રિયાઓ અમારા GPUs પર 100.0x વાસ્તવિક સમય પર. 1-કલાકની ઓડિયો ફાઈલ 1 મિનિટમાં સમાપ્ત થાય છે; લાંબી ફાઈલો કતારમાં અને જ્યારે પૂર્ણ થાય ત્યારે ઈમેઈલ દ્વારા સૂચિત કરે છે.
Vosk પાસે 50M પરિમાણો છે. મોટા મોડેલો વધુ ચોક્કસ હોય છે પરંતુ ધીમા; STT.ai GPU પર Vosk યજમાન છે તેથી પરિમાણ ગણતરી તમારી ક્લાયન્ટ-સાઇડ કાર્યક્ષમતા અસર કરતી નથી.
Vosk દરેક બંધારણને સ્વીકારે છે કે જે STT.ai આધાર આપે છે — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, અને અન્ય. આઉટપુટ TXT, SRT, VTT, DOCX, JSON, અથવા PDF તરીકે.
હા. સ્પીકર ડેટાબેઝ દરેક અનુવાદ માટે Vosk ની સાથે ચાલે છે - દરેક સ્પીકર ને લેબલ કરેલ છે અને તમે પછી સંપાદકમાં તેનું નામ બદલી શકો છો.
હા. Vosk અમારા સંચાલિત વાતાવરણમાં ચાલે છે - ઓડિયો મૂળભૂત રીતે પ્રક્રિયા કરેલ છે અને કાઢી નાખવામાં આવે છે અને સ્પષ્ટ રીતે પસંદગી કર્યા વિના તાલીમ માટે ક્યારેય વપરાય નહિં. પ્રો યોજનાઓ અસ્થિર ટ્રાન્સક્રિપ્ટ્સ માટે ક્લાયન્ટ-સાઇડ એનક્રિપ્શન ઉમેરે છે.
Vosk ને કોઈપણ અન્ય આધારભૂત મોડેલ સામે એ જ ઓડિયો પર ચલાવવા માટે સરખામણી-stt સાધનનો ઉપયોગ કરો - તમે WER, સેગમેન્ટ ગણતરી, સ્પીકર લેબલ્સ, અને વિશ્વાસ સ્કોર બાજુ-બે-બાજુ જોશો. Vosk વિ Whisper Large V3 સરખામણી સૌથી સામાન્ય રીતે ચલાવે છે.
હા. /v1/transcribe અંતિમબિંદુ પર મોડેલ પરિમાણ તરીકે "vosk" ને સ્પષ્ટ કરો. Python અને Node.js SDKs Vosk ઉદાહરણો સમાવે છે. મુક્ત API સ્તરમાં 100 મિનિટ/મહિના સમાવે છે.
હા. કારણ કે Vosk એ Apache 2.0-લાઇસન્સ થયેલ છે, તમે તેને સ્વયં-હોસ્ટ કરી શકો છો. STT.ai નું ઓપન-સોર્સ પાનું પ્રોજેક્ટ રેપો અને વજનોની યાદી કરે છે. મોટાભાગના ઉત્પાદન ટીમો GPU ખરીદી, મોડેલ સ્વેપ અને ઓપસને છોડવા માટે અમારી યજમાન આવૃત્તિ વાપરે છે.