Deteksi Speaker & Diarasi

Otomatis mengidentifikasi dan label speaker yang berbeda dalam transkripsi audio dan video Anda.

Cara kerjanya →
Enkripsi tanpa pengetahuan pada transkrip Anda dienkripsi dalam peramban Anda sebelum mencapai server kami. (Semua data selalu dienkripsi melalui HTTPS dalam transit.)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
Jatuhkan berkas di sini atau klik untuk diramban
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM sembari 2GB
Rekaman: 0:00
Real-time Vosk (instant)
Enhanced Berbisik (akurat)
Link publik: 24h, hanya teks · Daftar untuk audio 7d + · Pro untuk sambungan privat

Pidato real-time dengan teks. AI auto-treksis saat Anda berbicara dengan akurasi meningkatkan dengan pidato yang lebih panjang.

Uji mikrofon Anda terlebih dahulu
❤️ Katakan pada teman-temanmu!
Anda telah menggunakan transkripsi gratis Anda

Daftar secara gratis untuk mendapatkan 600 menit/bulan, atau upgrade untuk transkripsi tak terbatas.

10 menit/hari bebas 600 menit gratis dengan signup Tidak ada kartu kredit Terenkripsi
Bebas mendaftar →

Apa itu Speaker Diarasi?

Diarasasi pembicara adalah proses partisi aliran audio ke dalam segmen menurut identitas pembicara. Dalam istilah yang lebih sederhana, ia menjawab pertanyaan "siapa yang berbicara kapan?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Cara Kerja Deteksi Speaker

1. Deteksi Aktivitas Suara

Sistem ini pertama - tama mengidentifikasi segmen audio mana yang memuat pidato versus keheningan, musik, atau kebisingan latar belakang.

2. Speaker Embedding

Setiap segmen pidato diubah menjadi embedding speaker -- sebuah vektor padat yang menangkap karakteristik vokal unik dari pembicara.

3. Gugus & Labeling

Embedding dikelompokkan ke segmen kelompok dari speaker yang sama bersama-sama, maka setiap cluster diberi label (Speaker 1, Speaker 2, dsb.).

Gunakan Kasus untuk Deteksi Speaker

Transkripsi Pertemuan
Otomatis melabeli setiap peserta dalam rekaman pertemuan. Hasilkan menit dengan atribut yang jelas dari siapa yang mengatakan apa.
Transkripsi Podcast
Dibedakan antara host dan tamu dalam episoda podcast. Membuat catatan dengan dialog yang tepat.
Transkripsi Wawancara
Wawancara dan wawancara terpisah menanggapi penelitian, jurnalisme, dan perekrutan dokumentasi.
Legal & Kepatuhan
Buat catatan resmi tentang deposisi, pemeriksaan, dan kepatuhan panggilan dengan identifikasi pembicara yang jelas.

Deteksi Speaker di STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Coba deteksi speaker sekarang

Unggah rekaman multi pembicara dan lihat speaker secara otomatis berlabel.

Mulai Mentranskripsi Bebas

Pertanyaan yang Sering Diajukan

Unggah file audio atau video ke STT.ai, pilih model AI, klik Transkripsi. Ekspor sebagai TXT, SRT, VTT, DOCX, JSON, atau PDF.

Ya! STT.ai menawarkan 600 menit gratis per bulan. Tidak perlu mendaftar untuk transkripsi pertama.

Akurasi tergantung pada model AI dan kualitas audio. Model terbaik kami mencapai akurasi 93-95%+.

STT.ai menawarkan 10+ model termasuk Whisper Large V3, NVIDIA Canary, dan lagi. Anda dapat membandingkan hasil dari model yang berbeda pada file yang sama.

Setelah mentranskrip, ekspor transkrip Anda sebagai SRT atau VTT berkas subtitel. ini bekerja dengan YouTube, Vimeo, dan semua platform video utama.

STT.ai secara otomatis mengidentifikasi dan label speaker yang berbeda menggunakan diarasi speaker AI. bekerja di semua model dan bahasa.

Kebanyakan file ditranskripsi di bawah 5 menit. 1-jam file audio biasanya mengambil 2-3 menit dengan model tercepat kami.

STT.ai mendukung 20+ format audio dan video termasuk MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, dan AVI. Ekspor sebagai TXT, SRT, VTT, DOCX, JSON, atau PDF.

Ya. File audio diproses dan dihapus setelah transkripsi. Data anda tidak pernah digunakan untuk pelatihan. Enkripsi sisi klien bebas dari semua rencana É ini mengenkripsi transkrip yang tersimpan hanya dengan kunci yang Anda miliki. Selama proses, server menangani audio Anda dalam teks biasa. Pelajari keamanan kami.

STT.ai menawarkan API REST dengan Python dan Node.js SDK. tingkat bebas termasuk 100 menit/bulan.

STT.ai termasuk penyunting transkrip bawaan di mana Anda dapat memperbaiki kesalahan, mengganti nama pembicara, dan menyesuaikan penanda waktu.

Setiap transkrip mendapat link yang dapat dibagi unik. Ekspor ke DOCX atau PDF untuk email. Rencana pro menawarkan password-protected dan sambungan permanen.