দিয়ে ট্রান্সক্রাইব করুন Whisper Large V3
4.2%
WER
99
Languages
8.0x
Speed
MIT
License
সম্পর্কে Whisper Large V3
Whisper Large V3 is OpenAI's flagship open-source speech recognition model. With 1.55 billion parameters, it offers exceptional accuracy across 99 languages. It uses a transformer encoder-decoder architecture trained on 680,000 hours of multilingual audio data.
Model Info
- ProviderOpenAI
- Architecture-
- LicenseMIT
- UpdatedMar 2026
প্রায়শই জিজ্ঞাসিত প্রশ্ন
Whisper Large V3 is a speech-to-text model by OpenAI. STT.ai hosts Whisper Large V3 on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick Whisper Large V3 from the model picker.
প্রমিত বেঞ্চমার্কে, ৮৮০০০ এর শব্দের ভুলের হার প্রায় ৮৮০০১%। বাস্তব বিশ্বের সঠিকতা অডিও গুণমান, উচ্চারণ এবং ভাষার উপর নির্ভর করে; ধ্বনি বা উচ্চারিত রেকর্ডিংয়ের জন্য, কিছু শতাংশ উচ্চতর WER আশা করা যেতে পারে।
Whisper Large V3 STT.ai এর বিনামূল্যে স্তরে চলছে - প্রতিটি ভিজিটর600 মিনিট / মাস কোন খরচ ছাড়া পায়। পে-প্ল্যানে প্রতি ফাইল সীমাবদ্ধতা, ব্যক্তিগত ট্রান্সক্রিপশন এবং অগ্রাধিকার লাইন যোগ করা হয়।
৮৮০০০ প্রকাশিত হয়েছে ৮৮০০১ লাইসেন্সের অধীনে, যা একটি উন্মুক্ত সোর্স লাইসেন্স। আপনি আপনার নিজের হার্ডওয়্যারের উপর ৮৮০০০-এর স্ব-হোস্টিং করতে পারেন অথবা আমাদের হোস্ট করা সংস্করণ ব্যবহার করতে পারেন - উভয়ই বাণিজ্যিকভাবে ব্যবহারযোগ্য।
Whisper Large V3 99 ভাষা সমর্থন করে। অধিকাংশ অডিও ফাইলের জন্য স্বয়ংক্রিয়ভাবে সঠিক ভাষা নির্ধারণ করা হয়; আপনি এটি স্বয়ংক্রিয়ভাবে নির্ধারণ করেও সঠিকতা বাড়াতে পারেন।
Whisper Large V3 আমাদের GPU-এর উপর প্রায় 8.0x বাস্তব-সময়ে অডিও প্রসেস করে। ১ ঘন্টার অডিও ফাইল ৮৮০০০২ মিনিটের মধ্যে শেষ হয়; দীর্ঘ ফাইলগুলোর জন্য অপেক্ষা করা হবে এবং শেষ হলে ই-মেইল দ্বারা জানাবে।
Whisper Large V3 এর 1.55B পরামিতি রয়েছে। বড় মডেলগুলো আরও সঠিক কিন্তু ধীর; STT.ai GPU-তে Whisper Large V3 হোস্ট করে, ফলে পরামিতি সংখ্যা আপনার ক্লায়েন্ট-সাইড পারফরম্যান্সে প্রভাব ফেলে না।
Whisper Large V3 accepts every format STT.ai supports — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and others. Output as TXT, SRT, VTT, DOCX, JSON, or PDF.
হ্যাঁ, প্রত্যেকটি অনুবাদের জন্য স্পিকার ডায়ারাইজেশন ৮৮০০০ এর সাথে চলছে - প্রত্যেকটি স্পিকার লেবেল করা আছে এবং আপনি পরে সম্পাদকে তাদের নাম পরিবর্তন করতে পারেন।
হ্যাঁ। ৮৮০০০০ আমাদের পরিচালিত পরিবেশে চলছে - অডিও ডিফল্টভাবে প্রক্রিয়াজাত করা হয় এবং মুছে ফেলা হয় এবং স্পষ্টভাবে অটো-ইন না করে প্রশিক্ষণের জন্য কখনও ব্যবহার করা হয় না। প্রফেশনাল প্ল্যানে ক্লায়েন্ট-সাইড এনক্রিপশন যোগ করা হয় নিষ্ক্রিয় ট্রান্সক্রিপশনের জন্য।
একই অডিওতে অন্য যেকোন সমর্থিত মডেলের সাথে ৮৮০০০ চালানোর জন্য compare-stt টুল ব্যবহার করুন — আপনি WER, সেগমেন্ট সংখ্যা, স্পিকার লেবেল এবং বিশ্বাসযোগ্যতা স্কোর পাশে পাশে দেখতে পাবেন। ৮৮০০০ বনাম Whisper Large V3 তুলনা সবচেয়ে সাধারণভাবে চালানো হয়।
হ্যাঁ। /v1/transcribe এন্ডপয়েন্টে মডেল পরামিতি হিসাবে "whisper-large-v3" উল্লেখ করুন। Python এবং Node.js SDK-এ Whisper Large V3 উদাহরণ অন্তর্ভুক্ত রয়েছে। বিনামূল্যে API স্তরে ১০০ মিনিট/মাস অন্তর্ভুক্ত রয়েছে।
হ্যাঁ। যেহেতু Whisper Large V3 MIT-লাইসেন্সপ্রাপ্ত, আপনি এটি স্ব-হোস্ট করতে পারেন। STT.ai এর উন্মুক্ত উৎস পৃষ্ঠা প্রকল্পের রেপো এবং ওজনের তালিকা প্রদান করে। বেশিরভাগ উৎপাদন দল GPU ক্রয়, মডেল স্ব্যাপ এবং অপস ছাড়তে আমাদের হোস্ট করা সংস্করণ ব্যবহার করে।