Free Video to Text Online
Convert video to text with AI-powered transcription. Upload audio files, record from your microphone, or paste a URL. 100+ languages, 10+ models, 98%+ accuracy.
1. Upload Video
Upload MP4, MKV, MOV, WebM, or AVI. Audio is extracted automatically.
2. AI Transcribes Video
AI extracts and transcribes the audio track with speaker labels and timestamps.
3. Export & Caption
Download subtitles as SRT/VTT for captioning. Or export transcript as TXT, DOCX, PDF.
Video to Text Models
Choose the AI model that fits your needs — or let us pick the best one.
Transcribe Video in 100+ Languages
Ready to convert video to text?
বিনামূল্যে শুরু করুন →প্রায়শই জিজ্ঞাসিত প্রশ্ন
Upload your video file or paste a video URL. STT.ai extracts the audio track automatically — no separate demux step — runs it through your chosen AI model, and returns the transcript plus SRT/VTT subtitles.
MP4, MKV, MOV, WebM, AVI এবং অন্যান্য সাধারণ কনটেইনার সমস্ত সমর্থিত। আপনার অডিও নিজেই এক্সট্র্যাক্ট করার প্রয়োজন নেই - ভিডিওটি আপলোড করুন।
হ্যাঁ। ইউটিউব, ভিমিও অথবা যেকোন প্লেয়ারে আপলোড করার জন্য SRT অথবা VTT হিসাবে ট্রান্সক্রিপ্ট রপ্তানি করুন, এবং সাবটাইটেল টুলটি ভিডিওতে সরাসরি সাবটাইটেল হার্ডকোড করতে পারে। MKV এবং MP4 পুনরায় এনকোডিং ছাড়াও সফট-সাবটাইটেল ট্র্যাক সংযুক্ত করতে সমর্থন করে।
Yes. STT.ai includes 600 free minutes per month — about ten hours of video. Paid plans starting at $5/month add larger files, longer videos, and private transcripts.
ভিডিওতে অডিও ট্র্যাকের উপর ভিত্তি করে সঠিকতা নির্ধারিত হয় - উচ্চ-বিটরেটের অডিও (২৫৬ কেবিপিএস+) বেশী সংকুচিত সাউন্ডট্রাকের চেয়ে ভালভাবে অনুবাদ করে। আমাদের সেরা মডেলগুলো পরিষ্কার কথাবার্তার ক্ষেত্রে ৯৩-৯৫% পর্যন্ত পৌঁছে যায়।
প্রত্যেক প্ল্যানে ২ জিবি পর্যন্ত ফাইল সমর্থিত। বিনামূল্যে ব্যবহারকারীরা প্রতিটি ফাইলে এক ঘণ্টার ভিডিও পাবেন; বিনামূল্যে প্ল্যানে ৮+ ঘণ্টা পর্যন্ত প্রসারিত হবে। বিশাল ক্যামেরা ফাইলগুলির জন্য, H.264/AAC-এ সংকুচিত করুন অথবা একটি ইউআরএল আপলোড করুন।
হ্যাঁ। ১৩০০+ সমর্থিত প্ল্যাটফর্মের যেকোন একটি থেকে একটি পাবলিক ভিডিও ইউআরএল পেস্ট করুন এবং STT.ai ভিডিওটি পেয়ে যাবে এবং স্বয়ংক্রিয়ভাবে এর অডিও এক্সট্র্যাক্ট করবে। DRM-প্রতিরক্ষাপ্রাপ্ত অথবা ব্যক্তিগত ভিডিওগুলি প্রথমে নিজে হাতে ডাউনলোড করা আবশ্যক।
হ্যাঁ। স্পিকার ডায়ারিজম প্রত্যেকটি কণ্ঠস্বরকে লেবেল করে (স্পিকার ১, স্পিকার ২,...) এবং আপনি সম্পাদকে তাদের নাম পরিবর্তন করতে পারেন - সাক্ষাৎকার, প্যানেল এবং বহু-হোস্ট ভিডিওতে ব্যবহারযোগ্য।
হ্যাঁ। স্বয়ংক্রিয়ভাবে সনাক্তকরণ সহ ১০০+ ভাষা। আপনি সাবটাইটেল-অনুবাদক টুল ব্যবহার করে সম্পন্ন ট্রান্সক্রিপশন বা সাবটাইটেলকে অন্য ভাষায় অনুবাদ করতে পারেন।
সাবটাইটেলের জন্য SRT অথবা VTT এ রপ্তানি করুন, আর বার্তা, নোট প্রদর্শন এবং আর্কাইভের জন্য TXT, DOCX, PDF অথবা JSON এ রপ্তানি করুন। JSON মেশিন-পড়ার সময়সূচী এবং স্পিকার লেবেল সংরক্ষণ করে।
হ্যাঁ। ভিডিও এবং এক্সট্র্যাক্টকৃত অডিও ডিফল্টভাবে প্রক্রিয়াজাত করা হয় এবং মুছে ফেলা হয়, এবং প্রফেশনাল প্ল্যানে ক্লায়েন্ট-সাইড এনক্রিপশন যোগ করা হয় যাতে আপনার কী ছাড়া ট্রান্সক্রিপশন পড়া যায় না। স্পষ্টভাবে অনুমোদন না করে প্রশিক্ষণের জন্য কিছুই ব্যবহার করা হয় না।
বেশিরভাগ ভিডিও কয়েক মিনিটের মধ্যে শেষ হয়; একটি ঘণ্টার ভিডিও সাধারণত ৩-৫ মিনিট সময় নেয়, যা মডেল এবং বর্তমান GPU লোডের উপর নির্ভর করে। দীর্ঘ ভিডিওগুলো শেষ হলে লাইন করা হয় এবং আপনাকে ই-মেইল করা হয়।