দিয়ে ট্রান্সক্রাইব করুন NVIDIA Canary
3.5%
WER
4
Languages
45.0x
Speed
CC-BY-4.0
License
সম্পর্কে NVIDIA Canary
NVIDIA Canary is a 1B parameter model that excels at English, German, French, and Spanish transcription. Built on the NeMo framework, it uses a FastConformer encoder with a transformer decoder and supports automatic language detection and translation.
Model Info
- ProviderNVIDIA
- Architecture-
- LicenseCC-BY-4.0
- UpdatedMar 2026
প্রায়শই জিজ্ঞাসিত প্রশ্ন
NVIDIA Canary is a speech-to-text model by NVIDIA. STT.ai hosts NVIDIA Canary on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick NVIDIA Canary from the model picker.
প্রমিত বেঞ্চমার্কে, ৮৮০০০ এর শব্দের ভুলের হার প্রায় ৮৮০০১%। বাস্তব বিশ্বের সঠিকতা অডিও গুণমান, উচ্চারণ এবং ভাষার উপর নির্ভর করে; ধ্বনি বা উচ্চারিত রেকর্ডিংয়ের জন্য, কিছু শতাংশ উচ্চতর WER আশা করা যেতে পারে।
NVIDIA Canary STT.ai এর বিনামূল্যে স্তরে চলছে - প্রতিটি ভিজিটর600 মিনিট / মাস কোন খরচ ছাড়া পায়। পে-প্ল্যানে প্রতি ফাইল সীমাবদ্ধতা, ব্যক্তিগত ট্রান্সক্রিপশন এবং অগ্রাধিকার লাইন যোগ করা হয়।
৮৮০০০ প্রকাশিত হয়েছে ৮৮০০১ লাইসেন্সের অধীনে, যা একটি উন্মুক্ত সোর্স লাইসেন্স। আপনি আপনার নিজের হার্ডওয়্যারের উপর ৮৮০০০-এর স্ব-হোস্টিং করতে পারেন অথবা আমাদের হোস্ট করা সংস্করণ ব্যবহার করতে পারেন - উভয়ই বাণিজ্যিকভাবে ব্যবহারযোগ্য।
NVIDIA Canary 4 ভাষা সমর্থন করে। অধিকাংশ অডিও ফাইলের জন্য স্বয়ংক্রিয়ভাবে সঠিক ভাষা নির্ধারণ করা হয়; আপনি এটি স্বয়ংক্রিয়ভাবে নির্ধারণ করেও সঠিকতা বাড়াতে পারেন।
NVIDIA Canary আমাদের GPU-এর উপর প্রায় 45.0x বাস্তব-সময়ে অডিও প্রসেস করে। ১ ঘন্টার অডিও ফাইল ৮৮০০০২ মিনিটের মধ্যে শেষ হয়; দীর্ঘ ফাইলগুলোর জন্য অপেক্ষা করা হবে এবং শেষ হলে ই-মেইল দ্বারা জানাবে।
NVIDIA Canary এর 1B পরামিতি রয়েছে। বড় মডেলগুলো আরও সঠিক কিন্তু ধীর; STT.ai GPU-তে NVIDIA Canary হোস্ট করে, ফলে পরামিতি সংখ্যা আপনার ক্লায়েন্ট-সাইড পারফরম্যান্সে প্রভাব ফেলে না।
NVIDIA Canary accepts every format STT.ai supports — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and others. Output as TXT, SRT, VTT, DOCX, JSON, or PDF.
হ্যাঁ, প্রত্যেকটি অনুবাদের জন্য স্পিকার ডায়ারাইজেশন ৮৮০০০ এর সাথে চলছে - প্রত্যেকটি স্পিকার লেবেল করা আছে এবং আপনি পরে সম্পাদকে তাদের নাম পরিবর্তন করতে পারেন।
হ্যাঁ। ৮৮০০০০ আমাদের পরিচালিত পরিবেশে চলছে - অডিও ডিফল্টভাবে প্রক্রিয়াজাত করা হয় এবং মুছে ফেলা হয় এবং স্পষ্টভাবে অটো-ইন না করে প্রশিক্ষণের জন্য কখনও ব্যবহার করা হয় না। প্রফেশনাল প্ল্যানে ক্লায়েন্ট-সাইড এনক্রিপশন যোগ করা হয় নিষ্ক্রিয় ট্রান্সক্রিপশনের জন্য।
একই অডিওতে অন্য যেকোন সমর্থিত মডেলের সাথে ৮৮০০০ চালানোর জন্য compare-stt টুল ব্যবহার করুন — আপনি WER, সেগমেন্ট সংখ্যা, স্পিকার লেবেল এবং বিশ্বাসযোগ্যতা স্কোর পাশে পাশে দেখতে পাবেন। ৮৮০০০ বনাম Whisper Large V3 তুলনা সবচেয়ে সাধারণভাবে চালানো হয়।
হ্যাঁ। /v1/transcribe এন্ডপয়েন্টে মডেল পরামিতি হিসাবে "nvidia-canary" উল্লেখ করুন। Python এবং Node.js SDK-এ NVIDIA Canary উদাহরণ অন্তর্ভুক্ত রয়েছে। বিনামূল্যে API স্তরে ১০০ মিনিট/মাস অন্তর্ভুক্ত রয়েছে।
হ্যাঁ। যেহেতু NVIDIA Canary CC-BY-4.0-লাইসেন্সপ্রাপ্ত, আপনি এটি স্ব-হোস্ট করতে পারেন। STT.ai এর উন্মুক্ত উৎস পৃষ্ঠা প্রকল্পের রেপো এবং ওজনের তালিকা প্রদান করে। বেশিরভাগ উৎপাদন দল GPU ক্রয়, মডেল স্ব্যাপ এবং অপস ছাড়তে আমাদের হোস্ট করা সংস্করণ ব্যবহার করে।