스피커 감지 및 디아리제이션

오디오 및 비디오 녹음에서 다른 발표자를 자동으로 식별하고 태그를 부여합니다.

어떻게 작동하는지 →
제로-노우즈 암호화 켜짐 — 귀하의 녹음은 저희 서버에 도달하기 전에 귀하의 브라우저에서 암호화됩니다. (모든 데이터는 항상 전송 중 HTTPS를 통해 암호화됩니다.)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
파일을 여기에 드롭하거나 클릭하여 찾아보십시오.
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 최대 2GB
녹음 중: 0:00
실시간 왁스 (즉각)
향상된 속삭임 (정확)
공개 링크: 24시간, 텍스트만 · 가입하기 7d + 오디오를위한 · Pro 개인 링크에 대한

실시간 음성 텍스트로. AI가 말하는 동안 자동으로 수정합니다.

먼저 마이크 테스트
❤️ STT.ai를 사랑하시나요? 친구들에게 알려주세요!
너는 너의 무료 녹음을 사용했어

무료로 가입하여 600분/월을 받거나 무제한 녹음을 위해 업그레이드하십시오.

10 무료 분/일 가입 시 600분 무료 신용카드 필요 없음 암호화됨
무료로 가입하세요 →

스피커 디아리제이션이란 무엇인가?

스피커 다이어리화는 스피커의 정체성에 따라 오디오 스트림을 세그먼트로 분할하는 프로세스입니다. 간단히 말해, "누가 언제 말했는가?"라는 질문에 대한 답입니다. This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

스피커 감지 작동 방식

1. 음성 활동 감지

시스템은 먼저 어떤 오디오 세그먼트가 음성 대 침묵, 음악 또는 배경 소음을 포함하는지 식별합니다.

2. 스피커 포함

각 음성 세그먼트는 스피커 임베딩으로 변환됩니다. 이는 스피커의 고유한 음성 특성을 포착하는 컴팩트 벡터입니다.

3. 클러스터링 및 라벨링

임베딩은 같은 스피커의 세그먼트를 함께 그룹화하기 위해 클러스터화되고, 각 클러스터는 레이블(스피커 1, 스피커 2 등)을 할당받습니다.

스피커 감지를 위한 사용 사례

회의 녹음
회의 녹음에서 각 참석자에게 자동으로 라벨을 부여합니다. 누가 무엇을 말했는지 명확하게 표시된 회의록을 생성합니다.
팟캐스트 녹음
팟캐스트 에피소드에서 호스트와 게스트를 구분합니다. 적절한 발표자 속성을 사용하여 쇼 노트를 생성합니다.
인터뷰 녹음
연구, 저널리즘 및 고용 문서를 위해 인터뷰어와 인터뷰 대상자의 답변을 분리합니다.
법률 및 규정 준수
명확한 발표자 식별을 통해 증언, 청문회 및 규정 준수 통화의 공식 기록을 생성합니다.

STT.ai에서 스피커 감지

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

지금 스피커 감지 시도하기

다중 스피커 녹음을 업로드하고 스피커에 자동으로 레이블을 부여합니다.

무료로 번역하기 시작

자주 묻는 질문

STT.ai에 오디오/비디오 파일을 업로드하고 AI 모델을 선택한 후 전사를 클릭하세요. TXT, SRT, VTT, DOCX, JSON, PDF로 내보내기 가능.

네! STT.ai는 모든 사용자에게 월 600분 무료 제공. 첫 전사는 가입 불요. 유료 플랜 월 $5부터.

정확도는 AI 모델과 오디오 품질에 따라 다릅니다. 최고 모델은 93-95%+ 정확도를 달성합니다.

STT.ai 는 Whisper Large V3, NVIDIA Canary 등 10개 이상의 모델을 제공하며, 동일한 파일에서 다른 모델의 결과를 비교할 수 있습니다.

네. 녹음한 후에는 SRT 또는 VTT 자막 파일로 내보내십시오. 이러한 자막 파일은 YouTube, Vimeo 및 모든 주요 비디오 플랫폼에서 사용할 수 있습니다.

예. STT.ai 는 AI 스피커 디아리제이션을 사용하여 다른 스피커를 자동으로 식별하고 라벨링합니다. 모든 모델과 언어에서 작동합니다.

대부분의 파일은 5분 이내에 녹음됩니다. 1시간짜리 오디오 파일은 일반적으로 가장 빠른 모델로 2-3분이 소요됩니다.

STT.ai 20+ 오디오 및 비디오 포맷을 포함하여 MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI를 지원합니다. TXT, SRT, VTT, DOCX, JSON 또는 PDF로 내보내기.

네, 오디오 파일은 처리되고 녹음 후 삭제됩니다. 데이터는 절대 교육에 사용되지 않습니다. 클라이언트 측 암호화는 모든 플랜에서 무료로 제공되며, 저장된 녹음을 귀하만이 가지고 있는 키로 암호화합니다. 처리 중에 서버가 오디오를 일반 텍스트로 처리합니다. 보안에 대해 알아보기.

STT.ai 는 Python 및 Node.js SDK를 사용한 REST API를 제공합니다. 무료 계층에는 월 100분이 포함됩니다.

STT.ai 에는 오류를 수정하고, 스피커 이름을 변경하고, 타임스탬프를 조정할 수 있는 내장된 기록 편집기가 포함되어 있습니다.

모든 녹음은 고유한 공유 링크를 얻을. 이메일을위한 DOCX 또는 PDF로 내보내기. 프로 플랜은 암호로 보호되고 영구적인 링크를 제공합니다.