Melda frá um feil / ynski um nýggjar møguleikar

Speaker Detection & Diarization

Identifisera og merkja ymiskar talarar í tínum ljóð- og video- transkriptiónum. Vitja nágreiniliga, hvør segði hvat.

Virkar við almennum tilfari til ljóð og video. DRM-verjað innihald er ikki stuðlað.

Uppgradering til Enhanced

Privatur listi

Spæla við transkriptión

Unlock with Pro →

Slepp eina fil her ella trýst fyri at leita

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — upp til 2GB

Batch upload multiple files with Pro

Uppgradering til Enhanced

Privatur listi

Spæla við transkriptión

Unlock with Pro →

Uppgradering til Enhanced

Tala til tekst í sanntíð. AI loysir feilir sjálvvirkandi, tá tú talar - nákvæmnin verður betri við longri talu.

Test mikrofonina fyrst

10 free min/day 600 f.Kr. - 600 f.Kr. - 600 f.Kr. Kreditkort Kryptað

Hvat er ein lýsingarorð?

Speaker diarization is the process of partitioning a audio stream into segments according to the identity of the speaker. In simpler terms, it answers the question "who spoke when?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Ummæli av bókini

1. Uppsøgn av talvirksemi

Tað er ikki altíð, at tað er einans tónleikurin, ið er í fokus, men eisini lýsingar, lýsingartekstur og lýsingarmyndir.

2. Speaker Embedding

Ein lýsingarorð er eitt orð, sum verður nýtt í einum orðabókarteksti, og sum lýsir ein persón.

Clustering & Labeling

Í hesum føri verður lagið skrivað í einum flokki, sum er settur saman av tveimum stavum (1 og 2).

Use cases for speaker detection

Meeting transcription

Set sjálvvirkandi merki á hvønn luttakara í fundaropttøkum. Ger protokoll við eyðsýndum tilskrivingum av, hvør segði hvat.

Podcast

Skilja millum vertar og gestir í podcast-episodum. Lagdi framsýningarnotur við rættum tilskrivingum til framløgufólk.

Intervju við stjóran

Hann hevur skrivað og skrivað viðmerkingar til bøkur, greinar og blaðgreinar.

Legal & Compliance

Tað er ein skipan, sum ger, at fólk kunnu fáa upplýsingar, ráðgeving og hjálp við at søkja um upptøku.

Speaker Detection on STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Prøv at uppdaga talaran nú

Tað er ein røð av lýsingum, sum verða sendar út til fólk.

Start Transcribing Free

Ofta settir spurningar

Høvuðsorð knýtir seg til vafrann: lim inn ein URL, sendu eina skrá, ella tak upp frá mikrofonini. STT.ai velur AI-modellin og gevur frágreiðingina aftur á undir 5 minuttum. Eksporter til TXT, SRT, VTT, DOCX, JSON, eller PDF.

Ja - hvør vitjandi fær 600 fríar minuttir at byrja á STT.ai, nýtilig fyri Høvuðsorð á sama hátt sum onnur arbeiðsgongd. Betalt ætlan byrjar á $5/month og lokar upp longri filer, privatar transkriptiónir og forgangskø.

Høvuðsorð keyrir á somu AI-modellum sum restin av STT.ai - okkara bestu modellar náa 95-97% nøgdsemi á eyðsýndum máli (3-5% orðfeilstíð á benchmarks). Skipa um modellar á flogi, um fyrsta umfarið er undir tínum málum.

Høvuðsorð kann koyra á hvørjum sum helst av STT.ai's 10+ modellum — STT.ai Enhanced (mest nákvæmur), Whisper Large V3 (99 mál), NVIDIA Canary (#1 WER á stuðlaðum langum), Whisper Turbo (fljótur), Moonshine (léttur), og fleiri.

Ja. Allar transkriptiónir verða útfluttar sum SRT ella VTT - virkar við YouTube, Vimeo, TikTok, VLC, og øllum stórum videospælarum. Brenni-textur-tólið leggur teir yvir á video sum hardsubs.

Ja. Høvuðsrøðarin merkir sjálvvirkandi hvørja rødd (Høvund 1, Høvuðsrøðari 2,...), og tú kanst endurnøvna tær í innbygda rithøvundatólinum. Virkar á øllum modellum og á øllum málum.

Flestu Høvuðsorð arbeiðini eru liðug á undir 5 minuttum. Ein 1 tíma lang ljóðskrá er vanliga liðug á 2-3 minuttum við okkara skjótastu modellum. Hraðin er bundið at vali av modellum og GPU-belastning.

Høvuðsorð tekur ímóti 20+ sniðum — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, og fleiri. Úttøka til TXT, SRT, VTT, DOCX, JSON, ella PDF.

Ja. Hljómskráir, sum eru sendar til Høvuðsorð verða sjálvvirkandi viðgjørdar og slettaðar. Pro-planir geva kryptering á klientsíðuni - sjálvt um STT.ai-datagrunnurin verður brotin, so eru útskriftirnar ólesandi uttan tín lykil. Gögn verða ongantíð nýtt til modellæru uttan at tú hevur samtykt tað.

Ja. STT.ai bjóðar eitt REST API við Python og Node.js SDKs, og ein MCP server fyri Claude og Cursor — alt nýtiligt fyri Høvuðsorð arbeiðsgongdir. Frítt API-stig fevnir um 100 minuttir/mánað.

Ja. Kvar transkriptión opnar í innbygda rithøvundanum, har tú kanst rætta orð, endurnøvna talarar, stilla tímastimbrar og leggja til merkis. Allar broytingar verða lagdar sjálvvirkandi.

Hvert útskrift fær ein einføldan deila URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links - useful for client work.

STT.ai handfarar 1300+ miðlar, harímillum YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, og fleiri. URL transscription works with publicly available content only — DRM-protected sources cannot be transcribed.

Speaker Detection & Diarization

Hvat er ein lýsingarorð?

Ummæli av bókini

1. Uppsøgn av talvirksemi

2. Speaker Embedding

Clustering & Labeling

Use cases for speaker detection

Speaker Detection on STT.ai

Prøv at uppdaga talaran nú

Ofta settir spurningar

Hvussu virkar Høvuðsorð á STT.ai?

Er Høvuðsorð leyst?

Hvussu nákvæmur er Høvuðsorð?

Hvørjar AI-modellar kann eg brúka til Høvuðsorð?

Kan eg fáa undirtekstir frá Høvuðsorð?

Finnur Høvuðsorð ymiskar talarar?

Hvussu leingi tekur Høvuðsorð?

Hvørji inndatasnið styður Høvuðsorð?

Er ljóðið privat, tá eg brúka Høvuðsorð?

Er Høvuðsorð API?

Kan eg redigera ein Høvuðsorð-útskrift eftir?

Hvussu deili eg tað, sum Høvuðsorð framleiðir?

Hvørjar aðrar skipanir virka uttan fyri Høvuðsorð?