দিয়ে ট্রান্সক্রাইব করুন Vosk

পাবলিকভাবে উপলব্ধ অডিও এবং ভিডিও সহযোগে কাজ করে। DRM-প্রতিরক্ষাপ্রাপ্ত বিষয়বস্তু সমর্থিত নয়।

উন্নত করার জন্য উন্নত করুন
Private transcript
ট্রান্সক্রিপশনের সাথে আড্ডা
Pro-র সাথে আনলক করুন →
ফাইল এখানে ফেলে দিন অথবা ব্রাউজ করতে ক্লিক করুন
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ২GB পর্যন্ত
উন্নত করার জন্য উন্নত করুন
Private transcript
ট্রান্সক্রিপশনের সাথে আড্ডা
Pro-র সাথে আনলক করুন →
উন্নত করার জন্য উন্নত করুন
রেকর্ডিং: 0:00
বাস্তব সময় মোম (অবিলম্বে)
উন্নত Whisper (সঠিক)
পাবলিক লিংক: ২৪ ঘণ্টা, শুধু টেক্সট · নিবন্ধন করুন 7d + অডিও জন্য · প্রফেশনাল ব্যক্তিগত লিঙ্কের জন্য

বাস্তব সময়ের বাক্যের টেক্সট। আপনি কথা বললে AI স্বয়ংক্রিয়ভাবে সংশোধন করে - দীর্ঘ কথা বলার সাথে সাথে সঠিকতা উন্নত হয়।

প্রথমে মাইক্রোফোন পরীক্ষা করুন
❤️ STT.ai পছন্দ করেন? আপনার বন্ধুদের বলুন!
তুমি তোমার ফ্রি ট্রান্সক্রিপশন ব্যবহার করেছ

বিনামূল্যে ৬০০ মিনিট/মাস পেতে নিবন্ধন করুন, অথবা অসীমিত ট্রান্সক্রিপশনের জন্য আপগ্রেড করুন।

১০ মুক্ত মিনিট/দিন 600 মিনিট বিনামূল্যে সাইন আপ ক্রেডিট কার্ড নেই এনক্রিপ্ট করা
বিনামূল্যে নিবন্ধন করুন →
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License

সম্পর্কে Vosk

Vosk is an offline speech recognition toolkit that works without an internet connection. It supports 20+ languages with compact models that can run on mobile devices, Raspberry Pi, and any platform. Built on Kaldi and Zipformer architectures.

প্রায়শই জিজ্ঞাসিত প্রশ্ন

Vosk is a speech-to-text model by Alpha Cephei. STT.ai hosts Vosk on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick Vosk from the model picker.

প্রমিত বেঞ্চমার্কে, ৮৮০০০ এর শব্দের ভুলের হার প্রায় ৮৮০০১%। বাস্তব বিশ্বের সঠিকতা অডিও গুণমান, উচ্চারণ এবং ভাষার উপর নির্ভর করে; ধ্বনি বা উচ্চারিত রেকর্ডিংয়ের জন্য, কিছু শতাংশ উচ্চতর WER আশা করা যেতে পারে।

Vosk STT.ai এর বিনামূল্যে স্তরে চলছে - প্রতিটি ভিজিটর600 মিনিট / মাস কোন খরচ ছাড়া পায়। পে-প্ল্যানে প্রতি ফাইল সীমাবদ্ধতা, ব্যক্তিগত ট্রান্সক্রিপশন এবং অগ্রাধিকার লাইন যোগ করা হয়।

৮৮০০০ প্রকাশিত হয়েছে ৮৮০০১ লাইসেন্সের অধীনে, যা একটি উন্মুক্ত সোর্স লাইসেন্স। আপনি আপনার নিজের হার্ডওয়্যারের উপর ৮৮০০০-এর স্ব-হোস্টিং করতে পারেন অথবা আমাদের হোস্ট করা সংস্করণ ব্যবহার করতে পারেন - উভয়ই বাণিজ্যিকভাবে ব্যবহারযোগ্য।

Vosk 20 ভাষা সমর্থন করে। অধিকাংশ অডিও ফাইলের জন্য স্বয়ংক্রিয়ভাবে সঠিক ভাষা নির্ধারণ করা হয়; আপনি এটি স্বয়ংক্রিয়ভাবে নির্ধারণ করেও সঠিকতা বাড়াতে পারেন।

Vosk আমাদের GPU-এর উপর প্রায় 100.0x বাস্তব-সময়ে অডিও প্রসেস করে। ১ ঘন্টার অডিও ফাইল ৮৮০০০২ মিনিটের মধ্যে শেষ হয়; দীর্ঘ ফাইলগুলোর জন্য অপেক্ষা করা হবে এবং শেষ হলে ই-মেইল দ্বারা জানাবে।

Vosk এর 50M পরামিতি রয়েছে। বড় মডেলগুলো আরও সঠিক কিন্তু ধীর; STT.ai GPU-তে Vosk হোস্ট করে, ফলে পরামিতি সংখ্যা আপনার ক্লায়েন্ট-সাইড পারফরম্যান্সে প্রভাব ফেলে না।

Vosk accepts every format STT.ai supports — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and others. Output as TXT, SRT, VTT, DOCX, JSON, or PDF.

হ্যাঁ, প্রত্যেকটি অনুবাদের জন্য স্পিকার ডায়ারাইজেশন ৮৮০০০ এর সাথে চলছে - প্রত্যেকটি স্পিকার লেবেল করা আছে এবং আপনি পরে সম্পাদকে তাদের নাম পরিবর্তন করতে পারেন।

হ্যাঁ। ৮৮০০০০ আমাদের পরিচালিত পরিবেশে চলছে - অডিও ডিফল্টভাবে প্রক্রিয়াজাত করা হয় এবং মুছে ফেলা হয় এবং স্পষ্টভাবে অটো-ইন না করে প্রশিক্ষণের জন্য কখনও ব্যবহার করা হয় না। প্রফেশনাল প্ল্যানে ক্লায়েন্ট-সাইড এনক্রিপশন যোগ করা হয় নিষ্ক্রিয় ট্রান্সক্রিপশনের জন্য।

একই অডিওতে অন্য যেকোন সমর্থিত মডেলের সাথে ৮৮০০০ চালানোর জন্য compare-stt টুল ব্যবহার করুন — আপনি WER, সেগমেন্ট সংখ্যা, স্পিকার লেবেল এবং বিশ্বাসযোগ্যতা স্কোর পাশে পাশে দেখতে পাবেন। ৮৮০০০ বনাম Whisper Large V3 তুলনা সবচেয়ে সাধারণভাবে চালানো হয়।

হ্যাঁ। /v1/transcribe এন্ডপয়েন্টে মডেল পরামিতি হিসাবে "vosk" উল্লেখ করুন। Python এবং Node.js SDK-এ Vosk উদাহরণ অন্তর্ভুক্ত রয়েছে। বিনামূল্যে API স্তরে ১০০ মিনিট/মাস অন্তর্ভুক্ত রয়েছে।

হ্যাঁ। যেহেতু Vosk Apache 2.0-লাইসেন্সপ্রাপ্ত, আপনি এটি স্ব-হোস্ট করতে পারেন। STT.ai এর উন্মুক্ত উৎস পৃষ্ঠা প্রকল্পের রেপো এবং ওজনের তালিকা প্রদান করে। বেশিরভাগ উৎপাদন দল GPU ক্রয়, মডেল স্ব্যাপ এবং অপস ছাড়তে আমাদের হোস্ট করা সংস্করণ ব্যবহার করে।