Rapportér fejl / funktionsanmodning

Højttalerdetektion og - diarization

Automatisk identificere og mærke forskellige højttalere i din lyd og video transskriptioner. Ved præcis, hvem der sagde hvad.

Fungerer med offentligt tilgængelig lyd og video. DRM- beskyttet indhold understøttes ikke.

Opgradering til forbedret

Privat udskrift

Chat med udskrift

Lås op med Pro →

Slip fil her eller klik for at gennemse

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM ~ op til 2GB

Batch uploade flere filer med Pro

Opgradering til forbedret

Privat udskrift

Chat med udskrift

Lås op med Pro →

Opgradering til forbedret

Real-time tale til tekst. AI auto-korrigerer som du taler nøjagtighed forbedrer med længere tale.

Test din mikrofon først

10 gratis min/dag 600 min fri med tilmelding Intet kreditkort Krypteret

Tilmeld dig gratis →

Hvad er Speaker Diarization?

Speaker diarization er processen med at opdele en lydstrøm i segmenter i henhold til identiteten af højttaleren. I enklere vendinger, det besvarer spørgsmålet "hvem talte hvornår?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Hvordan detektering af højttaler virker

1. Voice Activity Detection

Systemet identificerer først hvilke segmenter af lyd indeholder tale versus stilhed, musik eller baggrundsstøj.

2. Højttalerindlejring

Hver tale segment er konverteret til en højttaler indlejring - en kompakt vektor, der indfanger de unikke vokal egenskaber af højttaleren.

3. Klynge & mærkning

Indlejringer er grupperet til grupper segmenter fra samme højttaler sammen, så hver klynge tildeles en etiket (Speaker 1, Speaker 2, etc.).

Brug kasser til detektering af højttalere

Transskription

Automatisk mærke hver deltager i møde optagelser. Generer minutter med klar tildeling af hvem sagde hvad.

Posdcast- transcription

Distinguished mellem vært og gæster i podcast episoder. Opret show noter med korrekt højttaler tildeling.

Interview- transskription

Separat interviewer og interviewe svar til forskning, journalistik, og ansætte dokumentation.

Lovlig & overholdelse

Opret officielle optegnelser over vidneudsagn, høringer og overholdelse opkald med klar højttaler identifikation.

Højttalerdetektion på STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Prøv detektering af højttaleren nu

Upload en multi-højttaler optagelse og se højttalere automatisk mærket.

Start abonnentfri@ action: inmenu

Ofte stillede spørgsmål

højttalerdetektion kører i din browser: indsætte en URL, uploade en fil, eller optage fra din mikrofon. STT.ai vælger AI-modellen og returnerer udskriften på under 5 minutter. Eksporterer som TXT, SRT, VTT, DOCX, JSON, eller PDF.

Ja! hver besøgende får 600 gratis minutter til at starte på STT.ai, anvendelige til højttalerdetektion det samme som enhver anden arbejdsgang. Betalt planer starter ved $5/måned låse længere filer, private udskrifter, og prioritet kø.

højttalerdetektion kører på de samme AI-modeller som resten af STT.ai ~ vores bedste modeller nå 95-97% nøjagtighed på ren tale (3-5% Word Error Rate på benchmarks). Skift modeller på flue, hvis den første pass er under dit mål.

højttalerdetektion kan køre på nogen af STT.ai 10 + modeller ~ STT.ai Forbedret (mest præcis), Whisper Large V3 (99 sprog), NVIDIA Canary (# 1 WER på understøttede langs), Whisper Turbo (hurtig), Moonshine (letvægt) og meget mere.

Ja. Hver udskrift eksport som SRT eller VTT ~ arbejder med YouTube, Vimeo, TikTok, VLC, og hver større videoafspiller. Brænde-undertekster værktøj overlejrer dem på video som hardsubs.

Ja. Højttalerdiarisering mærker automatisk hver stemme (Speaker 1, højttaler 2,...), og du kan omdøbe dem i den indbyggede editor. Fungerer på tværs af alle modeller og sprog.

De fleste højttalerdetektion job slutter på under 5 minutter. En 1-timers lydfil normalt fuldfører i 2-3 minutter med vores hurtigste modeller. Hastighed afhænger af valgt model og nuværende GPU belastning.

højttalerdetektion accepterer 20 + formater ~ MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI og meget mere. Output til TXT, SRT, VTT, DOCX, JSON eller PDF.

Ja. Lydfiler indsendt til højttalerdetektion behandles og slettes som standard. Pro planer tilføje klient-side kryptering ! selvom STT.ai database er brudt, dine udskrifter er ulæselige uden din nøgle. Data bruges aldrig til modeltræning uden eksplicit opt-in.

Ja. STT.ai tilbyder en REST API med Python og Node.js SDKs, plus en MCP server til Claude og Cursor • alle anvendelige til højttalerdetektion arbejdsgange. Gratis API-niveau inkluderer 100 minutter / måned.

Ja. Hver udskrift åbnes i den indbyggede editor, hvor du kan rette ord, omdøbe højttalere, justere tidsstempler og tilføje noter. Alle ændringer gemmes automatisk.

Hver udskrift får en unik, fælles URL. Eksportér til DOCX eller PDF til e-mail. Pro planer tilføje password-beskyttede og permanente links! nyttigt for klient arbejde.

STT.ai håndterer 1.300+ platforme, herunder YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast værter og meget mere. URL transskription arbejder kun med offentligt tilgængeligt indhold! DRM-beskyttede kilder kan ikke transskriberes.

Højttalerdetektion og - diarization

Hvad er Speaker Diarization?

Hvordan detektering af højttaler virker

1. Voice Activity Detection

2. Højttalerindlejring

3. Klynge & mærkning

Brug kasser til detektering af højttalere

Højttalerdetektion på STT.ai

Prøv detektering af højttaleren nu

Ofte stillede spørgsmål

Hvordan virker højttalerdetektion på STT.ai?

Is højttalerdetektion free?

Hvor præcis er højttalerdetektion?

Hvilke AI-modeller kan jeg bruge til højttalerdetektion?

Kan jeg få undertekster fra højttalerdetektion?

Opdager højttalerdetektion forskellige højttalere?

How long does højttalerdetektion take?

Hvilke inputformater understøtter højttalerdetektion?

Er min lyd privat, når jeg bruger højttalerdetektion?

Is there a højttalerdetektion API?

Kan jeg redigere en højttalerdetektion udskrift efter?

Hvordan deler jeg hvad højttalerdetektion producerer?

Hvilke andre platforme fungerer ud over højttalerdetektion?