দিয়ে ট্রান্সক্রাইব করুন SenseVoice

পাবলিকভাবে উপলব্ধ অডিও এবং ভিডিও সহযোগে কাজ করে। DRM-প্রতিরক্ষাপ্রাপ্ত বিষয়বস্তু সমর্থিত নয়।

উন্নত করার জন্য উন্নত করুন
Private transcript
ট্রান্সক্রিপশনের সাথে আড্ডা
Pro-র সাথে আনলক করুন →
ফাইল এখানে ফেলে দিন অথবা ব্রাউজ করতে ক্লিক করুন
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ২GB পর্যন্ত
উন্নত করার জন্য উন্নত করুন
Private transcript
ট্রান্সক্রিপশনের সাথে আড্ডা
Pro-র সাথে আনলক করুন →
উন্নত করার জন্য উন্নত করুন
রেকর্ডিং: 0:00
বাস্তব সময় মোম (অবিলম্বে)
উন্নত Whisper (সঠিক)
পাবলিক লিংক: ২৪ ঘণ্টা, শুধু টেক্সট · নিবন্ধন করুন 7d + অডিও জন্য · প্রফেশনাল ব্যক্তিগত লিঙ্কের জন্য

বাস্তব সময়ের বাক্যের টেক্সট। আপনি কথা বললে AI স্বয়ংক্রিয়ভাবে সংশোধন করে - দীর্ঘ কথা বলার সাথে সাথে সঠিকতা উন্নত হয়।

প্রথমে মাইক্রোফোন পরীক্ষা করুন
❤️ STT.ai পছন্দ করেন? আপনার বন্ধুদের বলুন!
তুমি তোমার ফ্রি ট্রান্সক্রিপশন ব্যবহার করেছ

বিনামূল্যে ৬০০ মিনিট/মাস পেতে নিবন্ধন করুন, অথবা অসীমিত ট্রান্সক্রিপশনের জন্য আপগ্রেড করুন।

১০ মুক্ত মিনিট/দিন 600 মিনিট বিনামূল্যে সাইন আপ ক্রেডিট কার্ড নেই এনক্রিপ্ট করা
বিনামূল্যে নিবন্ধন করুন →
5.5%
WER
50
Languages
50.0x
Speed
MIT
License

সম্পর্কে SenseVoice

SenseVoice is a speech foundation model from FunAudioLLM that goes beyond transcription. It supports 50+ languages and includes capabilities for emotion recognition, audio event detection, and inverse text normalization in a single model.

প্রায়শই জিজ্ঞাসিত প্রশ্ন

SenseVoice is a speech-to-text model by FunAudioLLM. STT.ai hosts SenseVoice on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick SenseVoice from the model picker.

প্রমিত বেঞ্চমার্কে, ৮৮০০০ এর শব্দের ভুলের হার প্রায় ৮৮০০১%। বাস্তব বিশ্বের সঠিকতা অডিও গুণমান, উচ্চারণ এবং ভাষার উপর নির্ভর করে; ধ্বনি বা উচ্চারিত রেকর্ডিংয়ের জন্য, কিছু শতাংশ উচ্চতর WER আশা করা যেতে পারে।

SenseVoice STT.ai এর বিনামূল্যে স্তরে চলছে - প্রতিটি ভিজিটর600 মিনিট / মাস কোন খরচ ছাড়া পায়। পে-প্ল্যানে প্রতি ফাইল সীমাবদ্ধতা, ব্যক্তিগত ট্রান্সক্রিপশন এবং অগ্রাধিকার লাইন যোগ করা হয়।

৮৮০০০ প্রকাশিত হয়েছে ৮৮০০১ লাইসেন্সের অধীনে, যা একটি উন্মুক্ত সোর্স লাইসেন্স। আপনি আপনার নিজের হার্ডওয়্যারের উপর ৮৮০০০-এর স্ব-হোস্টিং করতে পারেন অথবা আমাদের হোস্ট করা সংস্করণ ব্যবহার করতে পারেন - উভয়ই বাণিজ্যিকভাবে ব্যবহারযোগ্য।

SenseVoice 50 ভাষা সমর্থন করে। অধিকাংশ অডিও ফাইলের জন্য স্বয়ংক্রিয়ভাবে সঠিক ভাষা নির্ধারণ করা হয়; আপনি এটি স্বয়ংক্রিয়ভাবে নির্ধারণ করেও সঠিকতা বাড়াতে পারেন।

SenseVoice আমাদের GPU-এর উপর প্রায় 50.0x বাস্তব-সময়ে অডিও প্রসেস করে। ১ ঘন্টার অডিও ফাইল ৮৮০০০২ মিনিটের মধ্যে শেষ হয়; দীর্ঘ ফাইলগুলোর জন্য অপেক্ষা করা হবে এবং শেষ হলে ই-মেইল দ্বারা জানাবে।

SenseVoice এর 234M পরামিতি রয়েছে। বড় মডেলগুলো আরও সঠিক কিন্তু ধীর; STT.ai GPU-তে SenseVoice হোস্ট করে, ফলে পরামিতি সংখ্যা আপনার ক্লায়েন্ট-সাইড পারফরম্যান্সে প্রভাব ফেলে না।

SenseVoice accepts every format STT.ai supports — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and others. Output as TXT, SRT, VTT, DOCX, JSON, or PDF.

হ্যাঁ, প্রত্যেকটি অনুবাদের জন্য স্পিকার ডায়ারাইজেশন ৮৮০০০ এর সাথে চলছে - প্রত্যেকটি স্পিকার লেবেল করা আছে এবং আপনি পরে সম্পাদকে তাদের নাম পরিবর্তন করতে পারেন।

হ্যাঁ। ৮৮০০০০ আমাদের পরিচালিত পরিবেশে চলছে - অডিও ডিফল্টভাবে প্রক্রিয়াজাত করা হয় এবং মুছে ফেলা হয় এবং স্পষ্টভাবে অটো-ইন না করে প্রশিক্ষণের জন্য কখনও ব্যবহার করা হয় না। প্রফেশনাল প্ল্যানে ক্লায়েন্ট-সাইড এনক্রিপশন যোগ করা হয় নিষ্ক্রিয় ট্রান্সক্রিপশনের জন্য।

একই অডিওতে অন্য যেকোন সমর্থিত মডেলের সাথে ৮৮০০০ চালানোর জন্য compare-stt টুল ব্যবহার করুন — আপনি WER, সেগমেন্ট সংখ্যা, স্পিকার লেবেল এবং বিশ্বাসযোগ্যতা স্কোর পাশে পাশে দেখতে পাবেন। ৮৮০০০ বনাম Whisper Large V3 তুলনা সবচেয়ে সাধারণভাবে চালানো হয়।

হ্যাঁ। /v1/transcribe এন্ডপয়েন্টে মডেল পরামিতি হিসাবে "sensevoice" উল্লেখ করুন। Python এবং Node.js SDK-এ SenseVoice উদাহরণ অন্তর্ভুক্ত রয়েছে। বিনামূল্যে API স্তরে ১০০ মিনিট/মাস অন্তর্ভুক্ত রয়েছে।

হ্যাঁ। যেহেতু SenseVoice MIT-লাইসেন্সপ্রাপ্ত, আপনি এটি স্ব-হোস্ট করতে পারেন। STT.ai এর উন্মুক্ত উৎস পৃষ্ঠা প্রকল্পের রেপো এবং ওজনের তালিকা প্রদান করে। বেশিরভাগ উৎপাদন দল GPU ক্রয়, মডেল স্ব্যাপ এবং অপস ছাড়তে আমাদের হোস্ট করা সংস্করণ ব্যবহার করে।