এর সাথে অনুলিপি করো Vosk

Name: Vosk
Author: Alpha Cephei

পাবলিকভাবে উপলব্ধ অডিও এবং ভিডিও সহযোগে কাজ করে। DRM-প্রতিরক্ষাপ্রাপ্ত বিষয়বস্তু সমর্থিত নয়।

উন্নত করার জন্য উন্নত করুন

ব্যক্তিগত ট্রান্সক্রিপশন

ট্রান্সক্রিপশনের সাথে আড্ডা

Pro-র সাথে আনলক করুন →

ফাইল এখানে ফেলে দিন অথবা ব্রাউজ করতে ক্লিক করুন

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ২GB পর্যন্ত

একাধিক ফাইল আপলোড করা হবে প্রফেশনাল

উন্নত করার জন্য উন্নত করুন

ব্যক্তিগত ট্রান্সক্রিপশন

ট্রান্সক্রিপশনের সাথে আড্ডা

Pro-র সাথে আনলক করুন →

উন্নত করার জন্য উন্নত করুন

বাস্তব সময়ের বাক্যের টেক্সট। আপনি কথা বললে AI স্বয়ংক্রিয়ভাবে সংশোধন করে - দীর্ঘ কথা বলার সাথে সাথে সঠিকতা উন্নত হয়।

প্রথমে মাইক্রোফোন পরীক্ষা করুন

১০ মুক্ত মিনিট/দিন 600 মিনিট বিনামূল্যে সাইন আপ ক্রেডিট কার্ড নেই এনক্রিপ্ট করা

বিনামূল্যে নিবন্ধন করুন →

12.0%

WER

ভাষা

100.0x

গতি

Apache 2.0

লাইসেন্স

পরিচিতি Vosk

Vosk একটি অফলাইন বাক সনাক্তকরণ টুলকিট যা ইন্টারনেট সংযোগ ছাড়া কাজ করে। এটি ২০+ ভাষা সমর্থন করে যা মোবাইল ডিভাইস, রাসবেরি পাই এবং যেকোন প্ল্যাটফর্মে চালানো যেতে পারে। Kaldi এবং Zipformer স্থাপত্যের উপর নির্মিত।

ভাষা সমর্থন করে Vosk

ইংরেজি

স্প্যানিশ

ফরাসি

জার্মান

চীনা

জাপানি

কোরিয়ান

পর্তুগীজ

আরবি

হিন্দি

রুশ

ইতালিয়

ওলন্দাজ

তুর্কী

পোলিশ

সুইডিশ

ইন্দোনেশীয়

ভিয়েতনামী

চেক

গ্রিক

মডেল তথ্য

প্রদানকারীAlpha Cephei
স্থাপত্য-
লাইসেন্সApache 2.0
হালনাগাদMar 2026

প্রায়শই জিজ্ঞাসিত প্রশ্ন

Vosk is a speech-to-text model by Alpha Cephei. STT.ai hosts Vosk on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick Vosk from the model picker.

প্রমিত বেঞ্চমার্কে, ৮৮০০০ এর শব্দের ভুলের হার প্রায় ৮৮০০১%। বাস্তব বিশ্বের সঠিকতা অডিও গুণমান, উচ্চারণ এবং ভাষার উপর নির্ভর করে; ধ্বনি বা উচ্চারিত রেকর্ডিংয়ের জন্য, কিছু শতাংশ উচ্চতর WER আশা করা যেতে পারে।

Vosk STT.ai এর বিনামূল্যে স্তরে চলছে - প্রতিটি দর্শক বিনামূল্যে শুরু করার জন্য600 মিনিট পায়। পে-পাইড পরিকল্পনা প্রতি ফাইল সীমাবদ্ধতা, ব্যক্তিগত ট্রান্সক্রিপশন এবং অগ্রাধিকার লাইন যোগ করে।

৮৮০০০ প্রকাশিত হয়েছে ৮৮০০১ লাইসেন্সের অধীনে, যা একটি উন্মুক্ত সোর্স লাইসেন্স। আপনি আপনার নিজের হার্ডওয়্যারের উপর ৮৮০০০-এর স্ব-হোস্টিং করতে পারেন অথবা আমাদের হোস্ট করা সংস্করণ ব্যবহার করতে পারেন - উভয়ই বাণিজ্যিকভাবে ব্যবহারযোগ্য।

Vosk 20 ভাষা সমর্থন করে। অধিকাংশ অডিও ফাইলের জন্য স্বয়ংক্রিয়ভাবে সঠিক ভাষা নির্ধারণ করা হয়; আপনি এটি স্বয়ংক্রিয়ভাবে নির্ধারণ করেও সঠিকতা বাড়াতে পারেন।

Vosk আমাদের GPU-এর উপর প্রায় 100.0x বাস্তব-সময়ে অডিও প্রসেস করে। ১ ঘন্টার অডিও ফাইল ৮৮০০০২ মিনিটের মধ্যে শেষ হয়; দীর্ঘ ফাইলগুলোর জন্য অপেক্ষা করা হবে এবং শেষ হলে ই-মেইল দ্বারা জানাবে।

Vosk এর 50M পরামিতি রয়েছে। বড় মডেলগুলো আরও সঠিক কিন্তু ধীর; STT.ai GPU-তে Vosk হোস্ট করে, ফলে পরামিতি সংখ্যা আপনার ক্লায়েন্ট-সাইড পারফরম্যান্সে প্রভাব ফেলে না।

Vosk সমস্ত ফরম্যাট গ্রহণ করে যা STT.ai সমর্থন করে — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, এবং অন্যান্য। আউটপুট TXT, SRT, VTT, DOCX, JSON, অথবা PDF হিসাবে।

হ্যাঁ, প্রত্যেকটি অনুবাদের জন্য স্পিকার ডায়ারাইজেশন ৮৮০০০ এর সাথে চলছে - প্রত্যেকটি স্পিকার লেবেল করা আছে এবং আপনি পরে সম্পাদকে তাদের নাম পরিবর্তন করতে পারেন।

হ্যাঁ। ৮৮০ আমাদের পরিচালিত পরিবেশে চলছে - অডিও ডিফল্টভাবে প্রক্রিয়াজাত করা হয় এবং মুছে ফেলা হয় এবং স্পষ্টভাবে অটো-ইন না করে প্রশিক্ষণের জন্য কখনও ব্যবহার করা হয় না। প্রফেশনাল প্ল্যানে ক্লায়েন্ট-সাইড এনক্রিপশন যোগ করা হয় নিষ্ক্রিয় ট্রান্সক্রিপশনের জন্য।

একই অডিওতে অন্য যেকোন সমর্থিত মডেলের সাথে ৮৮০০০ চালানোর জন্য compare-stt টুল ব্যবহার করুন — আপনি WER, সেগমেন্ট সংখ্যা, স্পিকার লেবেল এবং বিশ্বাসযোগ্যতা স্কোর পাশে পাশে দেখতে পাবেন। ৮৮০০০ বনাম Whisper Large V3 তুলনা সবচেয়ে সাধারণভাবে চালানো হয়।

হ্যাঁ। /v1/transcribe এন্ডপয়েন্টে মডেল পরামিতি হিসাবে "vosk" উল্লেখ করুন। Python এবং Node.js SDK-এ Vosk উদাহরণ অন্তর্ভুক্ত রয়েছে। বিনামূল্যে API স্তরে ১০০ মিনিট/মাস অন্তর্ভুক্ত রয়েছে।

হ্যাঁ। যেহেতু Vosk Apache 2.0-লাইসেন্সপ্রাপ্ত, আপনি এটি স্ব-হোস্ট করতে পারেন। STT.ai এর উন্মুক্ত উৎস পৃষ্ঠা প্রকল্পের রেপো এবং ওজনের তালিকা প্রদান করে। বেশিরভাগ উৎপাদন দল GPU ক্রয়, মডেল স্ব্যাপ এবং অপস ছাড়তে আমাদের হোস্ট করা সংস্করণ ব্যবহার করে।

এর সাথে অনুলিপি করো Vosk

পরিচিতি Vosk

ভাষা সমর্থন করে Vosk

মডেল তথ্য

সম্পর্কিত মডেল

প্রায়শই জিজ্ঞাসিত প্রশ্ন

৮৮০০০ কি?

Vosk কতটা সঠিক?

Vosk কি ফ্রি?

Vosk কোন লাইসেন্স ব্যবহার করে?

কত ভাষা ৮৮০০০ সমর্থন করে?

Vosk কত দ্রুত?

Vosk মডেল কত বড়?

কোন অডিও ফরম্যাট Vosk অনুবাদ করতে পারে?

Vosk কি একাধিক স্পিকার সনাক্ত করে?

Vosk ব্যবহার করলে আমার ডেটা কি গোপনীয় থাকবে?

Vosk এর তুলনা কিভাবে অন্য STT মডেল?

আমি কি এপিআই এর মাধ্যমে ৮৮০০০ ব্যবহার করতে পারি?

আমি কি আমার নিজের সার্ভারে ৮৮০০০ চালাতে পারি?