Lapor Pepijat / Permintaan Ciri

Pengesanan & Diarisasi Penutur

Automatik mengenal pasti dan label pembicara yang berbeza dalam transkripsi audio dan video anda. Tahu tepat siapa yang berkata apa.

Berfungsi dengan audio & video yang tersedia untuk umum. Kandungan yang dilindungi DRM tidak disokong.

Naik taraf untuk Dipertingkatkan

Transkripsi Peribadi

Berbual dengan transkripsi

Buka dengan Pro →

Letakkan fail di sini atau klik untuk layari

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — sehingga 2GB

Muat naik fail berbilang secara berkelompok dengan Pro

Naik taraf untuk Dipertingkatkan

Transkripsi Peribadi

Berbual dengan transkripsi

Buka dengan Pro →

Naik taraf untuk Dipertingkatkan

Percakapan masa nyata ke teks. AI auto-betulkan bila anda bercakap — ketepatan bertambah dengan percakapan yang lebih panjang.

Uji mikrofon anda dahulu

10 minit percuma/hari 600 min percuma dengan mendaftar Tiada kad kredit Disulitkan

Daftar masuk percuma →

Apa itu Speaker Diarization?

Diarisian pembicara adalah proses membahagikan strim audio ke dalam segmen mengikut identiti pembicara. Dalam istilah yang lebih mudah, ia menjawab soalan "siapa yang bercakap bila?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Bagaimana Pengesanan Penutur Berfungsi

1. Pengesanan Aktiviti Suara

Sistem pertama mengenal pasti mana segmen audio mengandungi ucapan berbanding kesunyian, muzik, atau bunyi latar belakang.

2. Pembentangan Speaker

Setiap segmen ucapan diubah menjadi pemampatan pengerusi -- vektor kompak yang menangkap ciri vokal unik pengerusi.

3. Mengumpul & Label

Penempatan dikumpulkan untuk menggabungkan segmen dari pengerusi yang sama, kemudian setiap kumpulan diberi label (Pengerusi 1, Pengerusi 2, dll.).

Gunakan Kes untuk Pengesanan Penutur

Transkripsi Mesyuarat

Automatik label setiap peserta dalam rakaman mesyuarat. Janakan minit dengan atribut yang jelas siapa yang berkata apa.

Transkripsi Podcast

Membedakan antara hos dan tetamu dalam episod podcast. Cipta catatan tayangan dengan atribut pembicara yang betul.

Transkripsi temubual

Pemisahkan jawapan temubual dan temubual untuk penyelidikan, jurnalisme, dan dokumen mempekerjakan.

Keserasian & Undang-undang

Cipta rekod rasmi dari keterangan, perbicaraan, dan panggilan kepatuhan dengan pengenalan pembicara yang jelas.

Pengesanan Speaker pada STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Cuba pengesanan pengerusi sekarang

Muat naik rakaman multi-pembesar suara dan lihat pembesar suara yang dilabelkan secara automatik.

Mulakan Pentranskripsian Bebas

Soalan Lazim

pengesanan pembicara berjalan dalam pelayar anda: tampal URL, muat naik fail, atau rakam dari mikrofon anda. STT.ai memilih model AI dan mengembalikan transkripsi dalam masa kurang dari 5 minit. Eksport sebagai TXT, SRT, VTT, DOCX, JSON, atau PDF.

Ya — setiap pengunjung mendapat 600 minit percuma untuk bermula pada STT.ai, boleh digunakan untuk pengesanan pembicara sama seperti aliran kerja lain. Rancangan berbayar bermula pada $5/bulan membuka fail lebih panjang, transkripsi peribadi, dan baris gilir keutamaan.

pengesanan pembicara berjalan pada model AI yang sama seperti yang lain dari STT.ai — model terbaik kami mencapai 95-97% ketelusan pada ucapan bersih (3-5% Kadar Ralat Perkataan pada benchmark). Tukar model semasa terbang jika laluan pertama di bawah sasaran anda.

pengesanan pembicara boleh berjalan pada mana-mana 10+ model STT.ai — STT.ai Enhanced (terbaik), Whisper Large V3 (99 bahasa), NVIDIA Canary (#1 WER pada lang yang disokong), Whisper Turbo (cepat), Moonshine (lembut), dan lain-lain.

Ya. Setiap transkripsi mengeksport sebagai SRT atau VTT — berfungsi dengan YouTube, Vimeo, TikTok, VLC, dan setiap pemain video utama. Alat subtitel-bakar menutup mereka pada video sebagai hardsubs.

Ya. Diarisasi Speaker secara automatik melabel setiap suara (Speaker 1, Speaker 2,...) dan anda boleh menamakan semula mereka dalam editor terbenam. Berfungsi di semua model dan bahasa.

Kebanyakan pengesanan pembicara kerja selesai dalam kurang daripada 5 minit. Fail audio 1 jam biasanya selesai dalam 2-3 minit dengan model terpantas kami. Kelajuan bergantung pada model dipilih dan beban GPU semasa.

pengesanan pembicara menerima 20+ format — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, dan lain-lain. Output ke TXT, SRT, VTT, DOCX, JSON, atau PDF.

Ya. Fail audio yang dihantar ke pengesanan pembicara diproses dan dipadam secara lalai. Pelan Pro menambah penyulitan sisi klien - walaupun pangkalan data STT.ai dilanggar, transkripsi anda tidak boleh dibaca tanpa kunci anda. Data tidak pernah digunakan untuk latihan model tanpa opt-in eksplisit.

Ya. STT.ai menawarkan API REST dengan Python dan Node.js SDK, ditambah pelayan MCP untuk Claude dan Cursor — semua boleh digunakan untuk pengesanan pembicara aliran kerja. Tahap API percuma termasuk 100 minit/bulan.

Ya. Setiap transkripsi dibuka dalam editor terbenam di mana anda boleh betulkan perkataan, nama semula pembicara, selaraskan stamp masa, dan tambah nota. Semua perubahan disimpan secara automatik.

Setiap transkript mendapat URL yang boleh dikongsi unik. Eksport ke DOCX atau PDF untuk e-mel. Rancangan Pro menambah kata laluan yang dilindungi dan pautan kekal - berguna untuk kerja klien.

STT.ai mengendalikan 1,300+ platform termasuk YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, hos podcast, dan lebih. Pentranskripsian URL hanya berfungsi dengan kandungan yang boleh didapatkan secara awam — sumber yang dilindungi DRM tidak boleh ditranskripsikan.

Pengesanan & Diarisasi Penutur

Apa itu Speaker Diarization?

Bagaimana Pengesanan Penutur Berfungsi

1. Pengesanan Aktiviti Suara

2. Pembentangan Speaker

3. Mengumpul & Label

Gunakan Kes untuk Pengesanan Penutur

Pengesanan Speaker pada STT.ai

Cuba pengesanan pengerusi sekarang

Soalan Lazim

Bagaimana pengesanan pembicara berfungsi pada STT.ai?

Adakah pengesanan pembicara bebas?

Berapa tepatnya pengesanan pembicara?

Model AI apa yang boleh saya gunakan untuk pengesanan pembicara?

Bolehkah saya mendapatkan subtitel dari pengesanan pembicara?

Adakah pengesanan pembicara mengesan pengerusi yang berbeza?

Berapa lama masa yang diperlukan untuk pengesanan pembicara?

Format input apa yang disokong pengesanan pembicara?

Adakah audio saya peribadi bila saya menggunakan pengesanan pembicara?

Adakah terdapat pengesanan pembicara API?

Bolehkah saya edit transkripsi pengesanan pembicara selepas ini?

Bagaimana saya berkongsi apa yang pengesanan pembicara cipta?

Platform lain yang bekerja di luar pengesanan pembicara?