Segnala bug / richiesta di funzionalità

Speaker Detection & Diarization

Automatically identify and label different speakers in your audio and video transcriptions. Know exactly who said what.

Funziona con audio e video pubblicamente disponibili. I contenuti protetti da DRM non sono supportati.

Aggiornamento per Enhanced

Trascrizione privata

Parlare con la trascrizione

Sblocca con Pro →

Rilascia il file qui o fai clic per navigare

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM fino a 2GB

Caricamento batch di file multipli con Pro

Aggiornamento per Enhanced

Trascrizione privata

Parlare con la trascrizione

Sblocca con Pro →

Aggiornamento per Enhanced

Discorso in tempo reale al testo. AI auto-corregge mentre si parla di precisione di galattosio migliora con il discorso più lungo.

Prova prima il microfono

10 minuti/giorno gratuiti 600 min gratis con iscrizione Nessuna carta di credito Cifrato

Iscriviti gratis →

What is Speaker Diarization?

Speaker diarization is the process of partitioning an audio stream into segments according to the identity of the speaker. In simpler terms, it answers the question "who spoke when?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

How Speaker Detection Works

1. Voice Activity Detection

The system first identifies which segments of audio contain speech versus silence, music, or background noise.

2. Speaker Embedding

Each speech segment is converted into a speaker embedding -- a compact vector that captures the unique vocal characteristics of the speaker.

3. Clustering & Labeling

Embeddings are clustered to group segments from the same speaker together, then each cluster is assigned a label (Speaker 1, Speaker 2, etc.).

Use Cases for Speaker Detection

Meeting Transcription

Automatically label each participant in meeting recordings. Generate minutes with clear attribution of who said what.

Podcast Transcription

Distinguish between host and guests in podcast episodes. Create show notes with proper speaker attribution.

Interview Transcription

Separate interviewer and interviewee responses for research, journalism, and hiring documentation.

Legal & Compliance

Create official records of depositions, hearings, and compliance calls with clear speaker identification.

Speaker Detection on STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Try speaker detection now

Upload a multi-speaker recording and see speakers automatically labeled.

Start Transcribing Free

Domande frequenti

rilevamento diffusori viene eseguito nel browser: incolla un URL, carica un file o registra dal tuo mic. STT.ai seleziona il modello AI e restituisce la trascrizione in meno di 5 minuti. Esporta come TXT, SRT, VTT, DOCX, JSON o PDF.

Sì, ogni visitatore riceve 600 minuti gratuiti per iniziare su STT.ai, utilizzabile per rilevamento diffusori lo stesso di qualsiasi altro flusso di lavoro. Piani pagati a partire da $5/mese sbloccare file più lunghi, trascrizioni private, e la coda di priorità.

rilevamento diffusori funziona sugli stessi modelli AI come il resto di STT.ai.. I nostri migliori modelli raggiungono la precisione del 95-97% sulla parola pulita (3-5% Word Error Rate sui benchmark).

rilevamento diffusori può funzionare su uno qualsiasi dei modelli STT.ai 10+.. STT.ai Enhanced (più preciso), Whisper Large V3 (99 lingue), NVIDIA Canary (#1 WER su lang supportati), Whisper Turbo (veloce), Moonshine (leggero), e altro ancora.

Sì. Ogni trascrizione esporta come SRT o VTT Hoppenstedt funziona con YouTube, Vimeo, TikTok, VLC e ogni lettore video principale. Lo strumento di masterizzazione-sottotitoli li sovrasta su video come hardsub.

Sì. La diarizzazione dei diffusori etichetta automaticamente ogni voce (Speaker 1, Speaker 2,...) e puoi rinominarli nell'editor integrato. Funziona su tutti i modelli e linguaggi.

La maggior parte dei lavori rilevamento diffusori termina in meno di 5 minuti. Un file audio di 1 ora di solito completa in 2-3 minuti con i nostri modelli più veloci. La velocità dipende dal modello scelto e dal carico GPU attuale.

rilevamento diffusori accetta 20+ formati © © MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e altro ancora. Uscita su TXT, SRT, VTT, DOCX, JSON o PDF.

Sì. I file audio inviati a rilevamento diffusori vengono elaborati e cancellati per impostazione predefinita. Piani Pro aggiungono crittografia lato client ©Client anche se STT.ai database è violato, le trascrizioni sono illeggibili senza la chiave. I dati non vengono mai utilizzati per l'addestramento di modelli senza esplicito opt-in.

Sì. STT.ai offre un'API REST con SDK Python e Node.js, più un server MCP per Claude e Cursor ® tutti utilizzabili per rilevamento diffusori flussi di lavoro. Il livello API gratuito include 100 minuti al mese.

Sì. Ogni trascrizione si apre nell'editor integrato dove è possibile correggere le parole, rinominare gli altoparlanti, regolare il timestamp e aggiungere note. Tutte le modifiche salvano automaticamente.

Ogni trascrizione ottiene un unico URL condivisibile. Esporta in DOCX o PDF per email. Piani Pro aggiungere link password-protetti e permanenti

STT.ai gestisce oltre 1.300 piattaforme tra cui YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, host podcast e altro ancora. La trascrizione URL funziona con contenuti pubblici solo © DRM-protected sources is not be transcribed.

Speaker Detection & Diarization

What is Speaker Diarization?

How Speaker Detection Works

1. Voice Activity Detection

2. Speaker Embedding

3. Clustering & Labeling

Use Cases for Speaker Detection

Speaker Detection on STT.ai

Try speaker detection now

Domande frequenti

Come agisce rilevamento diffusori su STT.ai?

rilevamento diffusori è gratis?

Quanto è accurato rilevamento diffusori?

Quali modelli di IA posso usare per rilevamento diffusori?

Posso ottenere i sottotitoli da rilevamento diffusori?

rilevamento diffusori rileva diversi altoparlanti?

Quanto ci vuole per rilevamento diffusori?

Quali formati di input supporta rilevamento diffusori?

Il mio audio è privato quando uso rilevamento diffusori?

C'è un'API rilevamento diffusori?

Posso modificare una trascrizione rilevamento diffusori dopo?

Come faccio a condividere ciò che rilevamento diffusori produce?

Quali altre piattaforme funzionano oltre rilevamento diffusori?