Høyttalerdeteksjon og - detektering

Finn og gi navn til forskjellige høyttalere i lyd - og videoutskriftene dine. Vet nøyaktig hvem som sa hva.

Arbeider med offentlig tilgjengelig lyd og video. DRM- beskyttet innhold er ikke støttet.

Upgrade for Enhanced
Private transcript
Chat med utskrift
Lås opp med Pro →
Slipp fil her eller trykk for å bla gjennom
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — opptil 2GB
Upgrade for Enhanced
Private transcript
Chat med utskrift
Lås opp med Pro →
Upgrade for Enhanced
Opptak: 0:00
Sanntid Vosk (intant)
Forbedret Visking (nøyaktig)
Offentlige lenker: 24h, bare tekst · Registrer deg i 7d + lyd · Pro til private lenker

Sanntidstale til tekst. AI korrigerer automatisk mens du snakker – nøyaktighet forbedres med lengre tale.

Test mikrofonen din først
❤️ Kjærlighet STT.ai?
Du har brukt dine frie utskrifter

Gratis tilmelding for å få 600 minutter/måned, eller oppgradering for ubegrenset utskrifter.

10 gratis min/dag 600 min fri med registrering Intet kredittkort Kryptert
Registrer deg gratis →

Hva er høytalerdiarisering?

Høyttalerdiarisering er prosessen med å dele en lydstrøm inn i segmenter i henhold til høyttalerens identitet. This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Hvordan høyttalerdeteksjon virker

1. Finn stemmeaktivitet

Systemet identifiserer først hvilke deler av lyden som inneholder tale i forhold til stillhet, musikk eller bakgrunnsstøy.

2. Innebygget høyttaler

Hvert talesegment blir omgjort til en høyttaler som er innebygd -- en kompakt vektor som fanger opp de unike stemmeegenskapene til høyttaleren.

3. Klyngenavn

Inkluderinger grupperes til å gruppere segmenter fra samme høyttaler sammen, så blir hver klynge tildelt en etikett (høyttaler 1, høyttaler 2, osv.).

Brukstilfelle for høyttalerdeteksjon

Møtetransmisjon
Merk hver deltaker i møteopptaket automatisk. Generer minutter med tydelig tilegnelse av hvem som sa hva.
Podkastoverskrivning
Skill mellom vert og gjest i podkastepisoder. Lag visningsnotater med riktig høyttalertileigning.
Intervjuoversettelse
Separat intervjuer og intervjuer – svar på forskning, journalistikk og rekrutteringsdokumentasjon.
Rettslig og overholdelse
Opprett offisielle registre over deponeringer, høringer og innkallinger med tydelig identifikasjon av høyttaleren.

Speaker Detection on STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Prøv oppdaging av høyttaler nå

Last opp et opptak med flere høyttalere og se høyttalere automatisk merket.

Begynn å tranulere gratis

Ofte stilte spørsmål

Last opp lyd- eller videofila til STT.ai. Velg den AI- modellen du foretrekker, og trykk så på Transcribe. Utskrifta vil være klar om noen minutter. Eksporter som TXT, SRT, VTT, DOCX, JSON eller PDF.

Ja! STT.ai tilbyr 600 gratis minutter per måned for alle brukere. Ikke påmelding nødvendig for din første transkription. Betalte planer med flere minutter og funksjoner begynner på $ 5/ måned.

Nøyaktighet avhenger av hvilken AI- modell du velger og lydkvalitet. Våre beste modeller oppnår et ordfeilrate på 5-7%, hvilket betyr 93- 95% + nøyaktighet. Klar lyd med minimal bakgrunnsstøy gir de beste resultatene.

STT.ai tilbyr 10+ modeller som inkluderer Whisper Large V3, NVIDIA Canary, og mer. Du kan sammenlikne resultater fra forskjellige modeller på samme fil.

Ja. Etter at du har skrevet over, eksporterer du utskrifta din som SRT - eller VTT- tekstfiler. Disse virker med YouTube, Vimeo og alle større videoplattformer.

Ja. STT.ai identifiserer og merker automatisk forskjellige høyttalere ved hjelp av AI- høyttalerdiarisering. Fungerer på tvers av alle modeller og språk.

De fleste filer transkriberes på under 5 minutter. Det tar typisk 2-3 minutter med våre raskeste modeller.

STT.ai støtter 20+ lyd- og videoformater, herunder MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM og AVI. Eksporter som TXT, SRT, VTT, DOCX, JSON eller PDF.

Ja. Lydfiler blir behandlet og slettet etter utskrift. Dine data brukes aldri til trening. Kryptering på klientsiden er gratis på alle planer – det krypterer lagrede utskrifter med bare en nøkkel du har. Under behandling håndterer tjeneren lyden din i klartekst. Lær om vår sikkerhet.

Ja. STT.ai tilbyr et REST API med Python og Node.js SDKs. Ledig nivå inkluderer 100 minutter/måned.

Ja. STT.ai inneholder en innebygd utskriftsredigering der du kan rette feil, endre navn på høyttalere og justere tidsstempel.

Hver utskrift får en unik delte lenke. Eksporter til DOCX eller PDF for e- post. Pro planer tilbyr passordbeskyttet og permanent lenke.

STT.ai støtter 1. 300+- plattformer, herunder YouTube, Vimeo, TikTok, SoundCloud og mer. URL- utskrift virker bare med offentlig tilgjengelig lyd og video. DRM- beskyttet innhold (som Spotify premium episoder, Netflix, Disney+ osv.) kan ikke transkriberes. For DRM- innhold kan du laste ned fila separat og laste den opp direkte.