உடன் படியெடு Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
பற்றி Vosk
Vosk is an offline speech recognition toolkit that works without an internet connection. It supports 20+ languages with compact models that can run on mobile devices, Raspberry Pi, and any platform. Built on Kaldi and Zipformer architectures.
ஆதரிக்கும் மொழிகள் Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
அடிக்கடி கேக்கப்படும் கேள்விகள்
Vosk என்பது Alpha Cephei இல் இருந்து ஒரு உரையாடல்-உரை மாதிரியாகும். STT.ai Vosk ஐ எங்கள் GPU கட்டமைப்பில் சேமிக்கிறது, எனவே நீங்கள் உங்கள் சொந்த வன்பொருளை வழங்காமல் அதைப் பயன்படுத்தலாம் - ஒலி அல்லது வீடியோவை ஏற்றி Vosk ஐ மாதிரி தேர்விலிருந்து தேர்ந்தெடுக்கவும்.
தரமான அடிப்படைகளில், Vosk சுமார் 12.0% வார்த்தையின் தவறு விகிதத்தை அடைகிறது. உண்மையான உலகத்தின் துல்லியமானது ஒலி தரம், உச்சரிப்பு மற்றும் மொழியைப் பொறுத்து உள்ளது; சத்தமான அல்லது உச்சரிக்கப்பட்ட பதிவுகளுக்கு, சில சதவீத புள்ளிகள் அதிகமான WER ஐ எதிர்பார்க்கவும்.
Vosk STT.ai ன் இலவச நிலையிலேயே இயங்குகிறது - ஒவ்வொரு பார்வையாளரும் 600 நிமிடங்கள்/மாதத்திற்கு எந்த செலவும் இல்லாமல் பெறுகிறார். கட்டணம் செலுத்தும் திட்டங்கள் கோப்புக்கு அதிக அளவு வரம்புகளை, தனிப்பட்ட நகலெடுப்புகளை, மற்றும் முன்னுரிமை வரிசையை சேர்க்கின்றன.
Vosk Apache 2.0 கீழ் வெளியிடப்பட்டுள்ளது, ஒரு அனுமதிக்கக்கூடிய திறந்த மூல உரிமம். நீங்கள் உங்கள் சொந்த வன்பொருளில் Vosk ஐ தாங்களே சேமிக்கலாம் அல்லது எங்கள் சேமிக்கப்பட்ட பதிப்பைப் பயன்படுத்தலாம் - இரண்டும் வணிக ரீதியாக பயன்படுத்தக்கூடியவை.
Vosk 20 மொழிகளுக்கு ஆதரவு அளிக்கிறது. தானாகவே கண்டறிதல் பெரும்பாலான ஒலிகளுக்கு சரியான மொழியை தேர்ந்தெடுக்கிறது; நீங்கள் அதை கைமுறையாக சிறிய துல்லியமான உயர்விற்கு குறிப்பிடலாம்.
Vosk ஒலியை 100.0x உண்மையான நேரத்தில் எங்கள் GPUs களில் செயலாக்குகிறது. 1 மணி நேர ஒலி கோப்பு 1 நிமிடங்களில் முடிகிறது; நீண்ட கோப்புகள் வரிசைப்படுத்தப்பட்டு முடிந்தவுடன் மின்னஞ்சல் மூலம் அறிவிக்கப்படும்.
Vosk க்கு 50M அளவுருக்கள் உள்ளன. பெரிய மாதிரிகள் சரியானவை ஆனால் மெதுவாக இருக்கும்; STT.ai Vosk ஐ ஜிபியுவில் கொண்டுள்ளது எனவே அளவுருக்கள் கணக்கீடு உங்கள் வாடிக்கையாளர் பக்க செயல்திறனை பாதிக்காது.
Vosk STT.ai ஆதரவுகளை அனைத்து வடிவங்களிலும் ஏற்றுக்கொள்ளும் — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, மற்றும் பிற. வெளியீடு TXT, SRT, VTT, DOCX, JSON, அல்லது PDF.
Yes. Speaker diarization runs alongside Vosk for every transcription — each speaker is labeled and you can rename them in the editor afterwards.
ஆமாம். Vosk கள் நம் நிர்வகிக்கப்பட்ட சூழலில் இயங்குகின்றன - ஒலி இயங்குகிறது மற்றும் முன்னிருப்பாக நீக்கப்படுகிறது மற்றும் தெளிவான தேர்வு இல்லாமல் பயிற்சிக்கு பயன்படுத்தப்படுவதில்லை. பிரோ திட்டங்கள் நிறுத்தப்பட்டுள்ள பரிமாற்றங்களுக்கு வாடிக்கையாளர்-பக்க மறையாக்கத்தை சேர்க்கின்றன.
ஒரே ஒலியில் Vosk ஐ மற்ற ஆதரவு அளிக்கப்பட்ட மாதிரிகளுக்கு எதிராக இயக்க comparison-stt கருவியை பயன்படுத்தவும் - நீங்கள் WER, பிரிவு எண்ணிக்கை, ஒலிபெருக்கி லேபிள்கள், மற்றும் நம்பகத்தன்மை மதிப்பெண்களை பக்கவாட்டில் காணலாம். Vosk vs Whisper Large V3 ஒப்பீடு மிகவும் பொதுவாக இயக்கப்படுகிறது.
ஆம். /v1/transcribe முடிவில் "vosk" ஐ மாதிரி அளவுருவாக குறிப்பிடவும். பைதான் மற்றும் நோட். ஜேஎஸ் எஸ்டிகேக்களில் Vosk உதாரணங்கள் உள்ளன. இலவச API நிலை 100 நிமிடங்கள் / மாதம் உள்ளன.
ஆம். Vosk Apache 2.0- உரிமம் பெற்றது என்பதால், நீங்கள் அதை தாங்களே நடத்தலாம். STT.ai ன் திறந்த மூலப் பக்கத்தில் திட்டத்தின் ரேபோ மற்றும் எடைகள் பட்டியலிடப்பட்டுள்ளன. பெரும்பாலான தயாரிப்புக் குழுக்கள் எங்கள் நடத்தப்பட்ட பதிப்பைப் பயன்படுத்தி GPU கொள்முதல், மாதிரி மாற்றங்கள் மற்றும் செயல்பாடுகளைத் தவறவிடுகின்றன.