Konuşmacı Tespit ve Diarization

Ses ve video transkriplerinizde farklı konuşmacıları otomatik olarak tanımlayın ve etiketleyin. Kimin ne dediğini tam olarak bilin.

Nasıl çalışıyor? →
Sıfır bilgi şifreleme aktif. (Tüm veriler her zaman geçiş sırasında HTTPS üzerinden şifrelenir.)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
Dosyayı buraya bırak veya taramak için tıkla
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 2GB'a kadar
Kayıt: 0:00
Gerçek zamanlı Balmumu (anlık)
İyileştirilmiş Fısılda (kesin)
Halka açık bağlantılar: 24 saat, sadece metin · Kayıt ol 7d + ses için · Pro özel bağlantılar için

Gerçek zamanlı konuşmadan metne. AI konuşurken otomatik olarak düzeltir — doğruluk konuşma uzunlaştıkça iyileşir.

Önce mikrofonu test et
❤️ STT.ai'yi seviyor musunuz?
Bedava çevirilerini kullandın.

Ayda 600 dakika almak için ücretsiz kayıt olun veya sınırsız kopyalar için yükseltin.

Günde 10 dakika ücretsiz 600 dakika ücretsiz Kredi kartı yok. Şifrelenmiş
Ücretsiz kayıt olun →

Konuşmacı Diarization Nedir?

Konuşmacı diyarizasyonu, ses akışına, konuşanın kimliğine göre segmentlere ayırma işlemidir.Basit bir ifadeyle, "kim ne zaman konuştu?" sorusuna cevap verir. This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Konuşmacı Tespiti Nasıl Çalışıyor

Ses Aktivite Tespit

Sistem önce ses segmentlerinin sessizlik, müzik veya arka plan gürültüsüne karşı konuşma içerdiğini tanımlar.

2. Hoparlör Embedding

Her konuşma segmenti bir konuşmacı entegresine dönüştürülür - konuşmacının eşsiz ses özelliklerini yakalayan bir kompakt vektör.

3. Gruba Çevirme ve Etiketleme

Embeddings aynı hoparlörden grup segmentleri bir araya getirmek için kümelenir, sonra her kümeye bir etiket (Hoparlör 1, Hoparlör 2, vb.)

Konuşmacı Tespiti için Kullanım Durumları

Toplantı Mesajı
Toplantı kayıtlarındaki her katılımcıyı otomatik olarak etiketle. Ne söylediğinin açık bir şekilde belirtildiği notlar oluştur.
Podcast transkripsiyonu
Podcast bölümlerinde ev sahibi ve misafirleri ayırt et. Uygun konuşmacı tanımlamaları ile gösteri notları oluştur.
Röportaj transkripsiyonu
Araştırma, gazetecilik ve işe alma belgeleri için ayrı röportajcı ve röportajcı yanıtları.
Hukuk ve Uyum
Açık konuşmacı kimliği ile ifadelerin, duruşmaların ve uyum çağrılarının resmi kayıtlarını oluşturun.

STT.ai'de Konuşmacı Tespiti

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Sesli mesaj tespitini şimdi dene

Çok hoparlörlü bir kayıt yükle ve hoparlörlerin otomatik olarak etiketlendiğini gör.

Ücretsiz Yazdırmaya Başla

Sıkça Sorulan Sorular

Ses veya video dosyanızı STT.ai'ye yükleyin, AI modelini seçin ve Transkript'e tıklayın. TXT, SRT, VTT, DOCX, JSON veya PDF olarak dışa aktarın.

Evet! STT.ai tüm kullanıcılara ayda 600 dakika ücretsiz sunar. İlk transkripsiyon için kayıt gerekmez.

Doğruluk AI modeline ve ses kalitesine bağlıdır. En iyi modellerimiz %93-95+ doğruluk sağlar.

STT.ai Whisper Large V3, NVIDIA Canary ve daha fazlası dahil olmak üzere 10+ model sunuyor.Aynı dosyada farklı modellerden sonuçları karşılaştırabilirsiniz.

Evet. Çeviriden sonra, çevirinizi SRT veya VTT altyazılı dosyaları olarak ihraç edin. Bunlar YouTube, Vimeo ve tüm büyük video platformlarıyla çalışır.

Evet, STT.ai otomatik olarak farklı konuşmacıları tanımlıyor ve etiketliyor. Yapay zeka konuşmacı diarizasyonu kullanıyor. Tüm modellerde ve dillerde çalışıyor.

Çoğu dosya 5 dakikadan kısa sürede yazılır. 1 saatlik bir ses dosyası en hızlı modellerimizle 2-3 dakikada yazılır.

STT.ai MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM ve AVI dahil olmak üzere 20+ ses ve video formatını destekler. TXT, SRT, VTT, DOCX, JSON veya PDF olarak ihraç edin.

Evet. Ses dosyaları, transkripten sonra işleme ve silme işlemlerini geçirir. Verileriniz hiçbir zaman eğitim için kullanılmaz. İstemci tarafı şifreleme tüm planlarda ücretsizdir — depolanan transkripleri yalnızca sizin sahip olduğunuz bir anahtarla şifreler. İşlem sırasında, sunucu sesinizi açık metin olarak işler. Güvenliğimiz hakkında.

Evet. STT.ai Python ve Node.js SDK'ları ile REST API sunuyor. Ücretsiz seviye ayda 100 dakika içeriyor.

Evet, STT.ai'de hataları düzeltme, konuşmacıların adını değiştirme ve zaman damgalarını ayarlama gibi özellikler içeren bir transkript editörü var.

Her transkrip eşsiz bir paylaşılabilir bağlantı alır. E-posta için DOCX veya PDF'e ihraç edilir. Pro planları şifre ile korunan ve kalıcı bağlantılar sunar.