Iulat ang Bug / Feature Request

Speaker Pagkilala & Diarization

Awtomatikong makilala at label ang iba't ibang mga speaker sa iyong mga transcription ng audio at video. Alam eksakto sino ang sinabi kung ano.

Gumagana sa publikong magagamit na audio at video. DRM-protected na nilalaman ay hindi suportado.

Upgrade para sa Pinabuting

Pribadong transcript

Chat sa transcript

I-unlock sa Pro →

Drop file dito o mag-click upang mag-browse

Ang mga format ng video na suportado ay MP4, MOV, MKV, AVI, FLV, at iba pa.

I-upload ang maraming mga file sa Pro

Upgrade para sa Pinabuting

Pribadong transcript

Chat sa transcript

I-unlock sa Pro →

Upgrade para sa Pinabuting

Real-time na pagsasalita sa teksto. Nag-a-auto-correct ang AI habang nagsasalita ka — pinabuting katumpakan sa mas mahabang pagsasalita.

Subukan ang iyong microphone muna

10 libreng minuto/araw 600 minuto libreng may pag-signup Walang credit card Naka-encrypt

Mag-sign up para sa libreng →

Ano ang mga uri ng diyabetis?

Ang speaker diarization ay ang proseso ng paghati ng isang audio stream sa mga segment ayon sa pagkakakilanlan ng tagapagsalita. Sa mas simpleng mga salita, ito ay tumutugon sa tanong na "sino ang nagsalita kailan?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Paano gumagana ang Speaker Detection

1. Pagtukoy ng Aktibidad ng Tinig

Ang mga ito ay maaaring tumukoy sa: Mga instrumentong pangmusika, mga instrumentong pangmusikang pang-awitin, mga instrumentong pangmusikang pang-kompyuter.

2. Speaker pag-embed

Ang bawat segment ng pananalita ay nagiging isang speaker embedding -- isang compact vector na nahuhuli ang mga natatanging katangian ng boses ng tagapagsalita.

3. Pag-cluster at Pag-label

Ang mga embeddings ay pinagsama-sama upang bumuo ng mga segment mula sa parehong tagapagsalita, at pagkatapos ay ang bawat cluster ay itinalaga ng isang label (Tagapagsalaysay 1, Tagapagsalita 2, atbp.).

Gamitin ang mga kaso para sa Speaker Detection

Transcript ng pulong

Awtomatikong label ang bawat kalahok sa mga recordings pulong. Bumuo ng mga minuto na may malinaw na pagbibigay ng sino ang sinabi kung ano.

Podcast transcription

Pagkilala sa pagitan ng host at mga bisita sa podcast episodes. Lumikha ng mga tala ng palabas na may tamang speaker pag-aari.

Transcript ng Interbyu

I-separate ang tagapanayam at mga sagot ng interviewee para sa pananaliksik, journalism, at hiring dokumentasyon.

Legal & Pagtupad

Gumawa ng opisyal na talaan ng mga depositions, hearing, at mga tawag sa pagsunod na may malinaw na pagkakakilanlan ng tagapagsalita.

Speaker Pagkilala sa STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Subukan speaker detection ngayon

I-upload ang isang multi-speaker recording at makita speakers awtomatikong naka-label.

Magsisimulang Mag-translate ng Libre

Mga Madalas Itanong

Ang speaker detection ay tumatakbo sa iyong browser: i-paste ang isang URL, mag-upload ng isang file, o mag-record mula sa iyong mic. STT.ai ay pumipili ng modelo ng AI at nagbabalik ng transcript sa ilalim ng5minuto. I-export bilang TXT, SRT, VTT, DOCX, JSON, o PDF.

Oo — ang bawat bisita ay makakakuha ng 600 libreng minuto upang simulan sa STT.ai, magagamit para sa speaker detection ang parehong tulad ng anumang iba pang workflow. Paid plano simula sa $5/buwan i-unlock mas mahabang mga file, pribadong transcripts, at prayoridad queueing.

Ang speaker detection ay tumatakbo sa parehong AI na modelo tulad ng natitirang STT.ai - ang aming pinakamahusay na mga modelo ay umabot sa 95-97% na katumpakan sa malinis na pagsasalita (3-5% na Rate ng Pagkakamali ng Salita sa mga benchmark). Maglipat ng mga modelo sa paglipad kung ang unang pass ay mas mababa sa iyong layunin.

speaker detection can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Ang bawat transcript ay nai-export bilang SRT o VTT – gumagana sa YouTube, Vimeo, TikTok, VLC, at bawat pangunahing video player. Ang tool na burn-subtitles ay nag-ooverlay sa mga ito sa video bilang hardsubs.

Oo. Speaker diarization awtomatikong labels bawat boses (Speaker 1, Speaker2,...) at maaari mong palitan ang pangalan ng mga ito sa built-in editor. Gumagana sa lahat ng mga modelo at wika.

Most speaker detection jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speaker detection accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Oo. Ang mga audio file na ipinadala sa speaker detection ay pinoproseso at tinanggal sa default. Ang mga plano ng Pro ay nagdaragdag ng pag-encrypt sa client-side — kahit na ang database ng STT.ai ay nasira, ang iyong mga transcript ay hindi mababasa nang walang iyong key. Ang data ay hindi kailanman ginagamit para sa pagsasanay ng modelo nang walang malinaw na pagpipilian.

Oo. STT.ai nag-aalok ng isang REST API na may Python at Node.js SDKs, pati na rin ang isang MCP server para sa Claude at Cursor — lahat ng magagamit para sa speaker detection workflows. Libreng API tier kasama ang 100 minuto / buwan.

Oo. Ang bawat transcript ay bukas sa built-in editor kung saan maaari mong i-correct ang mga salita, baguhin ang pangalan ng mga speaker, ayusin ang mga timestamp, at magdagdag ng mga tala. Ang lahat ng mga pagbabago ay awtomatikong i-save.

Ang bawat transcript ay nakuha ng isang natatanging ibahagi URL. Export sa DOCX o PDF para sa email. Pro plano magdagdag ng password-protected at permanenteng mga link - kapaki-pakinabang para sa trabaho ng kliyente.

Ang STT.ai ay may kakayahang mag-translate ng 1,300+ na platform kabilang ang YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast host, at marami pa. Ang URL transcription ay gumagana sa mga nilalaman na magagamit sa publiko lamang — hindi maaaring isalin ang mga pinagkukunan na protektado ng DRM.

Speaker Pagkilala & Diarization

Ano ang mga uri ng diyabetis?

Paano gumagana ang Speaker Detection

1. Pagtukoy ng Aktibidad ng Tinig

2. Speaker pag-embed

3. Pag-cluster at Pag-label

Gamitin ang mga kaso para sa Speaker Detection

Speaker Pagkilala sa STT.ai

Subukan speaker detection ngayon

Mga Madalas Itanong

Paano gumagana ang speaker detection sa STT.ai?

Libre ba ang speaker detection?

Gaano katotohanan ang speaker detection?

Ano ang mga modelo ng AI na maaari kong gamitin para sa speaker detection?

Maaari ko bang makuha ang mga subtitle mula sa speaker detection?

Nakakakita ba ang speaker detection ng iba't ibang speaker?

Gaano katagal ang speaker detection?

Ano ang mga input format na sinusuportahan ng speaker detection?

Pribado ba ang audio ko kapag ginagamit ko ang speaker detection?

Mayroon bang isang speaker detection API?

Maaari ko bang i-edit ang speaker detection transcript pagkatapos?

Paano ko ibabahagi ang mga produkto ng speaker detection?

Ano ang iba pang mga platform na gumagana sa kabila ng speaker detection?