تحويل الكلام إلى نص على الإنترنت
تحويل الكلام إلى نص مع النصوص المترجمة التي تعمل بالذكاء الاصطناعي. تحميل الملفات الصوتية، والتسجيل من ميكروفونك، أو لصق عنوان URL. 100 + لغات، 10 + نماذج، 98% + دقة.
1. ارفع تسجيل الكلام
ارفع ملف صوتي أو فيديو، أو الصق رابطا، أو سجّل من الميكروفون.
2. الذكاء الاصطناعي يحوّل الكلام إلى نص
اختر من أكثر من 10 نماذج ذكاء اصطناعي. يشمل اكتشاف المتحدثين والتعرف التلقائي على اللغة.
3. صدّر نسختك النصية
حمّل بـ 6 تنسيقات. شارك روابط النسخة مع تشغيل الصوت.
نماذج تحويل الكلام إلى نص
اختر نموذج الذكاء الاصطناعي المناسب لاحتياجاتك — أو دعنا نختار الأفضل.
تحويل الكلام إلى نص بأكثر من 100 لغة
هل أنت مستعد لتحويل الكلام إلى نص؟
ابدأ مجاناً →الأسئلة الشائعة
STT.ai يدير تسجيلك من خلال نموذج الذكاء الاصطناعي الذي يستمع إلى الصوت ويخرج نصا قابلا للتحرير مع الختم الزمني وعلامات المتحدث - لا حاجة إلى الطباعة.
يقوم نموذج صوتي برسم صورة الموجة الصوتية إلى صوتيات، ثم يقوم نموذج لغوي بتجميعها إلى الكلمات الأكثر احتمالا والتشبيهات. ويقوم STT.ai بذلك على وحدة المعالجة المركزية مع نماذج مثل Whisper Large V3 وNVIDIA Canary، وبالتالي يتم تسجيل ساعة واحدة عادة في دقيقتين إلى ثلاث دقائق.
نعم، كل زائر يحصل على 600 دقيقة مجانية في الشهر دون التسجيل المطلوب للملف الأول. الخطط المدفوعة تبدأ من 5 دولارات / شهر وإضافة الملفات الأطول، والنسخ الخاصة، ومعالجة الأولوية.
في حالة الكلام الواضح، تبلغ أفضل نماذجنا دقة 95% إلى 97% (معدل خطأ الكلمات 3% إلى 5% على المعايير المرجعية). وتنخفض الدقة مع الضوضاء الخلفية، أو اللهجات الثقيلة، أو التداخل، أو الصوت المنخفض المعدل - استخدام ميكروفون لائق وغرفة هادئة يحدث أكبر فرق.
نعم، تحدث إلى ميكروفونك وSTT.ai ستنقل النص مباشرة من خلال أداة النصوص الحية. يمكنك أيضاً تحميل تسجيل كامل للنصوص الجماعية إذا لم تكن بحاجة إليه كلمة بكلمة بينما تتحدث.
STT.ai يتعرف على 100 + لغات وتلقائيا الكشف عن اللغة المنطوقة لمعظم الصوت. يمكنك أيضا تحديد اللغة يدويا لرفع الدقة الصغيرة، وتسجيلات اللغة المختلطة يتم التعامل معها عن طريق التحول في منتصف المقطع.
نعم. تضع قائمة المتحدثين علامات على كل صوت (المتحدث 1، المتحدث 2،...) ويمكنك إعادة تسميتها في المحرر. وهذا يعمل عبر كل نموذج مدعوم ولغات.
يدعم STT.ai أكثر من 20 صيغة صوتية بما في ذلك MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, و AVI.
وتحويل الكلام إلى نص ينقل ما قيل إلى كلمات؛ والتعرف على الصوت (تحديد هوية المتكلم) يحدد من قاله. ويقوم STT.ai بكلتا المهمتين - التحويل إلى نص وتحويل الكلام إلى صوت - ولكن المصطلحين يصفان مهام مختلفة.
نعم، الصوت يتم معالجته ومحذوف بشكل افتراضي، الخطط المهنية تضاف تشفير جانب العميل لذا النصوص غير مقروءة بدون مفتاحك، حتى STT.ai، وبياناتك لا تستخدم أبدا لتدريب النموذج دون الاختيار الصريح.
نعم، لدى STT.ai واجهة برمجة تطبيقات REST مع برامج Python و Node.js بالإضافة إلى خادم MCP لكلود و Cursor. ويشمل مستوى واجهة برمجة التطبيقات المجاني 100 دقيقة/شهر، مع دفع فواتير على أساس كل ثانية بعد ذلك.
نعم، كل نسخة من النص تفتح في محرر مدمج حيث يمكنك تصحيح الكلمات التي سمعتها خطأ، وإعادة تسمية المتحدثين، وتعديل الختم الزمني، وإضافة ملاحظات. وتستمر التحرير عبر كل شكل من أشكال التصدير.