Rapportera fel/funktionsförfrågan

Högtalardetektion och diarisering

Identifiera automatiskt och märka olika högtalare i ditt ljud och video transkriptioner. Vet exakt vem som sa vad.

Fungerar med allmänt tillgängligt ljud och video. DRM-skyddat innehåll stöds inte.

Uppgradering för förbättrad

Privat utskrift

Chatta med utskrift

Lås upp med Pro →

Släpp fil här eller klicka för att bläddra

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM – upp till 2GB

Batch ladda upp flera filer för

Uppgradering för förbättrad

Privat utskrift

Chatta med utskrift

Lås upp med Pro →

Uppgradering för förbättrad

Real-time tal till text. AI auto-korrigerar medan du talar — noggrannheten förbättras med längre tal.

Testa din mikrofon först

10 gratis min/dag 600 min gratis med anmälan Inget kreditkort Krypterad

Registrera dig gratis →

Vad är talman Diarization?

Högtalardiarization är processen för att partitionera en ljudström i segment enligt talarens identitet. I enklare termer, besvarar den frågan "vem talade när?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Hur detektion av talare fungerar

1. Detektering av röstaktivitet

Systemet identifierar först vilka segment av ljud innehåller tal kontra tystnad, musik eller bakgrundsljud.

2. Talare Inbäddning

Varje talsegment omvandlas till en högtalare som inbäddar – en kompakt vektor som fångar talarens unika röstegenskaper.

3. Klustring och märkning

Inbäddningar är grupperade för att gruppera segment från samma högtalare tillsammans, sedan varje kluster tilldelas en etikett (Speaker 1, Speaker 2, etc.).

Använd fall för att upptäcka talare

Sammanträdet: transkription

Automatiskt märka varje deltagare i möte inspelningar. Generera minuter med tydlig tillskrivning av vem som sagt vad.

Transkription till podcast

Skilj mellan värd och gäster i podcast avsnitt. Skapa visa anteckningar med rätt högtalare tillskrivning.

IntervjuTranskription

Separat intervjuare och intervjuare svar för forskning, journalistik, och anställa dokumentation.

Rättsligt och regelefterlevnad

Skapa officiella register över vittnesmål, utfrågningar och överensstämmelsesamtal med tydlig högtalaridentifiering.

Högtalare upptäckt på STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Försök att upptäcka högtalaren nu

Ladda upp en multi-högtalarinspelning och se högtalare automatiskt märkta.

Börja transkribera gratis

Vanliga frågor

Högtalardetektering körs i din webbläsare: klistra in en URL, ladda upp en fil, eller spela in från din mikrofon. STT.ai väljer AI-modellen och returnerar utskriften på under 5 minuter. Exportera som TXT, SRT, VTT, DOCX, JSON eller PDF.

Ja — varje besökare får 600 gratisminuter att starta på STT.ai, användbar för Högtalardetektering samma som alla andra arbetsflöden. Betald planer börjar på $ 5 / månad låsa upp längre filer, privata utskrifter, och prioritet köa.

Högtalardetektering körs på samma AI-modeller som resten av STT.ai – våra bästa modeller når 95-97% noggrannhet vid rent tal (3-5% Word Felfrekvens på riktmärken). Slå på modeller i farten om det första passet är under ditt mål.

Högtalardetektering kan köras på någon av STT.ai's 10+ modeller — STT.ai Enhanced (mest korrekt), Whisper Large V3 (99 språk), NVIDIA Canary (#1 WER på stöd langs), Whisper Turbo (fast), Moonshine (lättvikt) och mer.

Ja. Varje utskrift exporterar som SRT eller VTT — fungerar med YouTube, Vimeo, TikTok, VLC, och varje större videospelare. Bränn-subtitles verktyget överlagrar dem på video som hårdsubsubs.

Ja. Högtalardiarization märker automatiskt varje röst (talare 1, talare 2,...) och du kan byta namn på dem i den inbyggda editorn. Fungerar över alla modeller och språk.

De flesta Högtalardetektering jobb slutar på under 5 minuter. En 1-timmars ljudfil kompletterar normalt i 2-3 minuter med våra snabbaste modeller. Hastighet beror på vald modell och nuvarande GPU belastning.

Högtalardetektering accepterar 20+ format — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, och mer. Utmatning till TXT, SRT, VTT, DOCX, JSON, eller PDF.

Ja. Ljudfiler som skickas till Högtalardetektering behandlas och tas bort som standard. Pro-planer lägger till kryptering på klientsidan – även om STT.ai: s databas bryts, dina utskrifter är oläsbara utan din nyckel. Data används aldrig för modellutbildning utan uttryckligt opt-in.

Ja. STT.ai erbjuder ett REST API med Python och Node.js SDKs, plus en MCP-server för Claude och Cursor – alla användbara för Högtalardetektering arbetsflöden. Gratis API-nivå inkluderar 100 minuter/månad.

Ja. Varje utskrift öppnas i den inbyggda editorn där du kan korrigera ord, byta namn på högtalare, justera tidsstämpel och lägga till anteckningar. Alla ändringar sparas automatiskt.

Varje utskrift får en unik delad URL. Exportera till DOCX eller PDF för e-post. Pro planer lägga lösenordsskyddade och permanenta länkar — användbart för klientarbete.

STT.ai hanterar 1.300+ plattformar inklusive YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast värdar, med mera. URL transkription fungerar med offentligt tillgängligt innehåll bara – DRM-skyddade källor kan inte transkriberas.

Högtalardetektion och diarisering

Vad är talman Diarization?

Hur detektion av talare fungerar

1. Detektering av röstaktivitet

2. Talare Inbäddning

3. Klustring och märkning

Använd fall för att upptäcka talare

Högtalare upptäckt på STT.ai

Försök att upptäcka högtalaren nu

Vanliga frågor

Hur verkar Högtalardetektering på STT.ai?

Is Högtalardetektering free?

Hur exakt är Högtalardetektering?

Vilka AI-modeller kan jag använda för Högtalardetektering?

Kan jag få undertexter från Högtalardetektering?

Avkänner Högtalardetektering olika högtalare?

How long does Högtalardetektering take?

Vilka inmatningsformat stöder Högtalardetektering?

Är mitt ljud privat när jag använder Högtalardetektering?

Is there a Högtalardetektering API?

Kan jag redigera en Högtalardetektering utskrift efter?

How do I share what Högtalardetektering produces?

Vilka andra plattformar fungerar bortom Högtalardetektering?