Meld frå om feil / funksjonsønskje

Oppdaging av høgtalarar og diarisering

Identifiser og merke automatisk ulike talarar i lyd- og videotranskripsjonane dine. Vit nøyaktig kven som sa kva.

Fungerer med offentleg tilgjengeleg lyd og video. DRM-verna innhald er ikkje støtta.

Oppgrader til utvida

Privat transkripsjon

Prate med transkripsjon

Lås opp med Pro →

Slepp fil her eller trykk for å bla

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — opptil 2 GB

Batch-opplasting av fleire filer med Pro

Oppgrader til utvida

Privat transkripsjon

Prate med transkripsjon

Lås opp med Pro →

Oppgrader til utvida

Tale til tekst i sanntid. AI korrigerer automatisk når du snakkar — nøyaktigheita aukar med lengre tale.

Test mikrofonen først

10 ledig min/dag 600 min gratis ved påmelding Ingen kredittkort Kryptert

Meld deg på gratis →

Kva er høgtalardialyse?

Diarisering av talarar er prosessen med å dele opp ein lydstraum i segment i samsvar med identiteten til talaren. Enklare sagt svarar det på spørsmålet «kven snakka når?» This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Korleis høgtalargjenkjenning verkar

1. Oppdaging av taleaktivitet

Systemet identifiserer først kva for segment av lyd som inneheld tale, i motsetning til stillhet, musikk eller bakgrunnsstøy.

2. Innbygging av høgtalarar

Kvart talesegment vert omforma til ein høgtalar- innebygging – ein kompakt vektor som fangar opp dei unike vokale eigenskapane til høgtalaren.

Klynging og merkelappar

Innbyggjarar blir gruppert for å gruppere segment frå same høgtalaren saman, og kvart segment får ein merkelapp (Høgtalaren 1, Høgtalar 2, osv.).

Bruksområde for høgtalaroppdaging

Møtetranskripsjon

Merk automatisk kvar deltakar i møteopptak. Lag protokollar med tydeleg tilskriving av kven som sa kva.

Podkasttranskripsjon

Skilje mellom vert og gjest i podkast-episodar. Lag show-notatar med rett tilskriving til talaren.

Intervjutranskripsjon

Separate intervjuar- og intervjuobjektsvar for forsking, journalistikk og ansettingsdokumentasjon.

Juridisk og samsvar

Lag offisielle opptak av vitneforklaringar, høringar og samsvarande samtalar med tydeleg talaridentifikasjon.

Høgtalaroppdaging på STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Prøv å oppdaga høgtalarar no

Last opp eit opptak med fleire høgtalarar og sjå kva høgtalarar som automatisk vert merket.

Start omskriving

Ofte stilte spørsmål

Høgtalaroppdaging køyrer i nettlesaren din: lim inn ei nettadresse, last opp ei fil eller ta opp frå mikrofonen din. STT.ai vel AI-modellen og returnerer transkripsjonen på mindre enn 5 minutt. Eksporter som TXT, SRT, VTT, DOCX, JSON eller PDF.

Ja — kvar besøkjar får 600 gratis minutt til å starte på STT.ai, som kan brukast til Høgtalaroppdaging på same måte som alle andre arbeidsflytar. Betalte planar frå $5/månad låser opp lengre filer, private transkripsjonar og prioritert kø.

Høgtalaroppdaging køyrer på dei same AI-modellene som resten av STT.ai. Dei beste modellane våre har 95-97 % nøyaktigheit på klar tale (3-5 % feilrate på ord i referansetest). Byt modell på direkten dersom første passasje er under målet ditt.

Høgtalaroppdaging kan køyra på alle STT.ai-modellene — STT.ai Enhanced (mest nøyaktig), Whisper Large V3 (99 språk), NVIDIA Canary (#1 WER på støtta langar), Whisper Turbo (rask), Moonshine (lettvekt), og meir.

Ja. Kvar transkripsjon eksporterer som SRT eller VTT — fungerer med YouTube, Vimeo, TikTok, VLC og alle dei store videospelarane. Brenn-undertekst-verktøyet legg dei over på videoen som hardsubs.

Ja. Høgtalardialogar merker automatisk kvar stemme (Høgtalar 1, Høgtalar 2, & # 160; …), og du kan endra namnet på dei i det innebygde redigeringsprogrammet. Fungerer på alle modellar og språk.

Dei fleste Høgtalaroppdaging jobbane er ferdige på mindre enn 5 minutt. Ein 1-timers lydfil er vanlegvis ferdig på 2-3 minutt med våre raskeste modellar. Farten avheng av den valde modellen og gjeldande grafikkprosessorbelastning.

Høgtalaroppdaging støttar meir enn 20 format — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI og fleire. Utdata til TXT, SRT, VTT, DOCX, JSON eller PDF.

Ja. Lydfiler som vert sende til Høgtalaroppdaging vert som standard handsama og sletta. Pro-planar legg til kryptering på klientsida - sjølv om databasen til STT.ai vert brutt, er avskrifta uleseleg utan nøkkelen din. Data vert aldri brukt til modelltrening utan eksplisitt samtykke.

Ja. STT.ai tilbyr eit REST API med Python og Node.js SDK-ar, i tillegg til ein MCP-tenar for Claude og Cursor — alt brukbart for Høgtalaroppdaging arbeidsflytar. Gratis API-nivå inkluderer 100 minutt/månad.

Ja. Kvar avskrift vert opna i det innebygde redigeringsprogrammet der du kan korrigera ord, endra namn på elevar, justera tidsstempler og leggja til notatar. Alle endringar vert lagra automatisk.

Kvar transkripsjon får ein unik URL som kan delast. Eksporter til DOCX eller PDF for e-post. Pro-planar legg til passordbeskytta og permanente lenkjer - nyttig for klientarbeid.

STT.ai handterer meir enn 1300 plattformar, inkludert YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podkastvertar og meir. URL-transkripsjon fungerer berre med offentleg tilgjengeleg innhald - DRM-verna kjelder kan ikkje transkriberast.

Oppdaging av høgtalarar og diarisering

Kva er høgtalardialyse?

Korleis høgtalargjenkjenning verkar

1. Oppdaging av taleaktivitet

2. Innbygging av høgtalarar

Klynging og merkelappar

Bruksområde for høgtalaroppdaging

Høgtalaroppdaging på STT.ai

Prøv å oppdaga høgtalarar no

Ofte stilte spørsmål

Korleis fungerer Høgtalaroppdaging på STT.ai?

Er Høgtalaroppdaging ledig?

Kor nøyaktig er Høgtalaroppdaging?

Kva AI-modeller kan eg bruke for Høgtalaroppdaging?

Kan eg få undertekstar frå Høgtalaroppdaging?

Oppdagar Høgtalaroppdaging ulike høgtalarar?

Kor lenge tek Høgtalaroppdaging?

Kva inndataformat støttar Høgtalaroppdaging?

Er lydsignalet mitt privat når eg brukar Høgtalaroppdaging?

Finn du eit Høgtalaroppdaging API?

Kan eg redigera ein Høgtalaroppdaging-transkripsjon etterpå?

Korleis deler eg det Høgtalaroppdaging produserer?

Kva andre plattformar fungerer utover Høgtalaroppdaging?