اكتشاف المتحدثين والفصل

تعرّف وصنّف المتحدثين المختلفين تلقائياً في نسخ الصوت والفيديو. اعرف بالضبط من قال ماذا.

كيف يعمل →
التشفير على جانب العميل — سيكون نصك مشفراً في متصفحك قبل تخزينه. يقوم الخادم بمعالجة نصك السمعي للنسخ، ثم يتم تشفير النتيجة محلياً بمفتاحك قبل حفظها. (وجميع البيانات مشفرة دائما عن طريق HTTPS أثناء النقل.)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
اسقط الملف هنا أو انقر للتصفح
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM - حتى ٢ غيغابايت
التسجيل: 0:00
الزمن الحقيقي الشمع (الفوري)
معززة )دقة(
وصلات عامة: 24 ساعة، نص فقط · انضم 7د + سمعية · Pro للوصلات الخاصة

تحويل الكلام إلى نص في الوقت الحقيقي. يقوم الذكاء الاصطناعي بالتصحيح التلقائي بينما تتحدث - تتحسن الدقة مع طول الكلام.

اختبار ميكروفونك أولاً
❤️ أحببت STT.ai؟ أخبر أصدقائك!
لقد استخدمت نسخك المجانية

انضم مجاناً للحصول على 600 دقيقة/شهر، أو تحسين للحصول على نسخ غير محدودة.

10 دقائق حرة/يوم 600 دقيقة مجانية مع التسجيل لا توجد بطاقة ائتمان مشفرة
انضم مجاناً →

ما هو فصل المتحدثين؟

فصل المتحدثين هو عملية تقسيم تدفق صوتي إلى أجزاء حسب هوية المتحدث. ببساطة، يجيب على سؤال «من تحدث متى؟» This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

كيف يعمل اكتشاف المتحدثين

1. اكتشاف نشاط الصوت

يحدد النظام أولاً أي أجزاء الصوت تحتوي على كلام مقابل الصمت أو الموسيقى أو ضوضاء الخلفية.

2. تضمين المتحدث

يتم تحويل كل جزء كلام إلى تضمين متحدث — متجه مضغوط يلتقط الخصائص الصوتية الفريدة للمتحدث.

3. التجميع والتسمية

يتم تجميع التضمينات لجمع أجزاء نفس المتحدث معاً، ثم يتم تعيين تسمية لكل مجموعة (المتحدث 1، المتحدث 2، إلخ).

حالات استخدام اكتشاف المتحدثين

نسخ الاجتماعات
صنّف كل مشارك تلقائياً في تسجيلات الاجتماعات. أنشئ محاضر بتحديد واضح لمن قال ماذا.
نسخ البودكاست
ميّز بين المقدم والضيوف في حلقات البودكاست. أنشئ ملاحظات الحلقة مع تحديد صحيح للمتحدثين.
نسخ المقابلات
افصل إجابات المُحاوِر والمُحاوَر للبحث والصحافة وتوثيق التوظيف.
قانوني وامتثال
أنشئ سجلات رسمية للإفادات والجلسات ومكالمات الامتثال مع تحديد واضح للمتحدثين.

اكتشاف المتحدثين في STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

جرب اكتشاف المتحدثين الآن

ارفع تسجيلاً متعدد المتحدثين وشاهد تصنيفهم تلقائياً.

ابدأ النسخ مجاناً

الأسئلة الشائعة

ارفع ملف صوتي أو فيديو إلى STT.ai، اختر نموذج الذكاء الاصطناعي، وانقر على نسخ. ستكون النسخة جاهزة في دقائق. صدّر بصيغة TXT، SRT، VTT، DOCX، JSON أو PDF.

نعم! يقدم STT.ai 600 دقيقة مجانية شهرياً. لا حاجة للتسجيل لأول نسخة. الخطط المدفوعة تبدأ من $5/شهر.

تعتمد الدقة على نموذج الذكاء الاصطناعي وجودة الصوت. أفضل نماذجنا تحقق دقة 93-95%+.

STT.ai يقدم أكثر من 10 نماذج بما في ذلك Whisper Large V3، NVIDIA Canary، وأكثر. يمكنك مقارنة النتائج من نماذج مختلفة في نفس الملف.

نعم، بعد الترجمة، تصدير النصوص إلى SRT أو VTT ملفات النصوص الجانبية. هذه تعمل مع يوتيوب، فيميو، وجميع منصات الفيديو الرئيسية.

نعم، STT.ai يحدد تلقائيا ويسجل المتحدثين المختلفة باستخدام الذكاء الاصطناعي المتحدثين diarization. works عبر جميع النماذج واللغات.

ويتم نسخ معظم الملفات في أقل من 5 دقائق، أما الملف الصوتي الذي يستغرق ساعة واحدة فيستغرق عادة دقيقتين إلى ثلاث دقائق باستخدام أسرع نماذجنا.

يدعم STT.ai أكثر من 20 صيغة صوتية وفيديوية بما في ذلك MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI.

نعم. الملفات الصوتية يتم معالجتها وحذفها بعد النسخ. بياناتك لن تستخدم أبدا للتدريب. التشفير على جانب العميل مجاني في جميع الخطط - تشفير النصوص المخزنة مع مفتاح لديك فقط. أثناء المعالجة، يتعامل الخادم مع الصوت في نص واضح. تعرف على أماننا.

نعم، تقدم STT.ai واجهة برمجة تطبيقات REST مع برامج Python و Node.js SDKs. ويشمل المستوى المجاني 100 دقيقة/شهر.

نعم، يتضمن برنامج (STT.ai) محرراً مدمجاً للنصوص حيث يمكنك تصحيح الأخطاء، وإعادة تسمية المتكلمين، وتعديل الختم الزمني.

كل نسخة تحصل على رابط فريد قابل للتقاسم. التصدير إلى DOCX أو PDF للبريد الإلكتروني.