Speaker Detection & Diarization

Audio- ja videotranskriptsioonides erinevate kõnelejate automaatne tuvastamine ja märgistamine. Tea täpselt, kes mida ütles.

Töötab avalikult kättesaadava audio & videoga. DRM- ga kaitstud sisu ei ole toetatud.

Upgrade for Enhanced
Private transcript
Vestlus ärakirjaga
Ava koos Pro' ga →
Faili viskamine siia või klõpsa sirvimiseks
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM ~ kuni 2GB
Upgrade for Enhanced
Private transcript
Vestlus ärakirjaga
Ava koos Pro' ga →
Upgrade for Enhanced
Salvestamine: 0:00
Reaalajas Vosk (instant)
Täiustatud Whisper (täpsus)
Avalikud lingid: 24h, ainult tekst · Registreeru 7d + audio · Pro privaatsete linkide jaoks

Reaalajas kõne teksti. AI automaatkorrektsioonid rääkides paraneb pikema kõnega.

Testige kõigepealt oma mikrofoni.
❤️ Armastus STT.ai?
Sa oled kasutanud oma tasuta transkriptsioone.

Registreeru tasuta saada 600 minutit / kuus, või uuendada piiramatu transkriptsiooni.

10 vaba minutit päevas 600 min tasuta registreerumisega Krediitkaarti pole Krüptitud
Registreeru tasuta →

Mis on spiikerdiarisatsioon?

Speaker diarization on protsess jagamine audio oja segmentideks vastavalt kõneleja identiteedile. Lihtsamalt öeldes, see vastab küsimusele "kes rääkis millal?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Kuidas kõlari tuvastamine toimib

1. Hääle aktiivsuse tuvastamine

Süsteem teeb kõigepealt kindlaks, millised audiolõigud sisaldavad kõnet vaikuse, muusika või taustamüra vastu.

2. Spiiker Embedding

Iga kõnesegment teisendatakse kõlariks - kompaktne vektor, mis haarab kõneleja ainulaadsed häälejooned.

3. Klastri ja sildistamine

Põimimine on koondunud rühmade segmentide sama kõneleja koos, siis iga klastri on määratud silt (Speaker 1, Speaker 2 jne).

Kõlari tuvastamisel kasutatavad kastid

Transkriptsioon
Märgib automaatselt iga osaleja koosoleku salvestused. Loo minutit selge omistamine kes ütles, mida.
Podcast Transkriptsioon
Eristamine võõrustaja ja külaliste Podcast episoodid. Loo näidata märkmeid õige kõneleja määramine.
Intervjuu Transkriptsioon
Eraldi intervjueerija ja intervjueerija vastused teadustöö, ajakirjanduse ja rentides dokumente.
Õiguslik ja vastavus
Luua ametlikke andmeid tunnistuste, ärakuulamiste ja nõuetele vastavuse kõned selge kõneleja identifitseerimine.

Speaker Detection STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Proovige valjuhääldi avastamist.

Laadib üles mitme kõlari salvestuse ja näeb kõlareid automaatselt sildistatud.

Start Transmarging Free

Korduma kippuvad küsimused

Laadige oma audio- või videofail STT.ai- le. Valige eelistatud AI mudel ja valikud, seejärel klõpsake Transcribe. Sinu ärakiri on minutites valmis. Eksporditakse TXT, SRT, VTT, DOCX, JSON või PDF.

Jah! STT.ai pakub 600 tasuta minutit kuus kõigile kasutajatele. Ei registreeruda vaja oma esimese transkriptsiooni. Tasulised plaanid rohkem minutit ja funktsioone alustada $5/kuu.

Täpsus sõltub valitud AI mudelist ja helikvaliteedist. Meie parimad mudelid saavutavad võrdlusandmetel 5-7% Wordi veamäära, mis tähendab 93-95%+ täpsust. Kõige paremaid tulemusi annab minimaalse taustamüraga selge heli.

STT.ai pakub 10+ mudeleid, sealhulgas Whisper Large V3, NVIDIA Canary ja muud. Sama faili erinevate mudelite tulemusi saab võrrelda.

Jah. Pärast ümberkirjutamist ekspordige ärakiri kui SRT või VTT subtiitrifailid. Need töötavad YouTube, Vimeo ja kõigi suuremate videoplatvormidega.

Jah. STT.ai automaatselt identifitseerib ja märgistab erinevaid kõlareid kasutades AI kõlar diarisatsioon. Töötab kõigis mudelites ja keeltes.

Enamik faile on transkribeeritud alla 5 minuti. 1-tunnine audiofail võtab tavaliselt 2-3 minutit meie kiireimad mudelid.

STT.ai toetab 20+ audio- ja videovorminguid, sealhulgas MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM ja AVI. Ekspordi TXT, SRT, VTT, DOCX, JSON või PDF.

Jah. Audiofaile töödeldakse ja kustutatakse pärast transkriptsiooni. Sinu andmeid ei kasutata kunagi treeningutel. Kliendipoolne krüptimine on kõigis plaanides vaba. See krüptib salvestatud transkripte ainult võtmega, mis sul on. Töötlemise ajal tegeleb server sinu audioga lihttekstis. Õppige tundma oma turvalisust.

Jah. STT.ai pakub REST API Python ja Node.js SDKS. Tasuta tase sisaldab 100 minutit kuus.

Jah. STT.ai sisaldab sisseehitatud transkriptireditor, kus saab parandada vigu, ümber nimetada kõlarid, ja kohandada ajatemplid.

Iga transkript saab unikaalse jagatava lingi. Ekspordi DOX või PDF e-posti. Pro plaanid pakuvad parooliga kaitstud ja püsivaid linke.

STT.ai toetab 1300+ platvormi, sealhulgas YouTube, Vimeo, TikTok, SoundCloud ja muud. URL-i transkriptsioon toimib ainult avalikult kättesaadava audio ja videoga. DRM-kaitsega sisu (nagu Spotify premium episoode, Netflix, Disney+, jne.) ei saa transkribeerida. DRM-i sisu korral laadige fail eraldi alla ja laadige see üles.