Raporto një gabim / kërkesë për funksion

Zbulimi i folësit dhe Diarization

Identifiko dhe etiketo automatikisht folësit e ndryshëm në transkriptimet audio dhe video. Di saktësisht se kush tha çfarë.

Punon me audio dhe video në dispozicion publikisht. Përmbajtja e mbrojtur me DRM nuk suportohet.

Përmirëso për të Përmirësuar

Transkriptim privat

Chat me transkriptim

Zhblloko me Pro →

Lëviz file këtu ose kliko për të shfletuar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — deri në 2GB

Ngarko file të shumtë me Pro

Përmirëso për të Përmirësuar

Transkriptim privat

Chat me transkriptim

Zhblloko me Pro →

Përmirëso për të Përmirësuar

Fjalë në tekst në kohë reale. AI auto-korrigjon ndërsa flet — saktësia përmirësohet me fjalë më të gjata.

Testo së pari mikrofonin tënd

10 minuta të lira në ditë 600 min pa pagesë me regjistrim Pa kartë krediti E kriptuar

Regjistrohu falas →

Çfarë është Dializa e Folësit?

Diarizimi i folësit është procesi i ndarjes së një rrjedhjeje audio në segmente sipas identitetit të folësit. Në terma më të thjeshtë, kjo përgjigjet pyetjes "kush foli kur?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Si funksionon zbulimi i folësit

Zbulimi i veprimtarisë së zërit

Sistemi së pari identifikon se cilat segmente të audios përmbajnë fjalën ndaj heshtjes, muzikës ose zhurmës së sfondit.

2. Përfshirja e zërit

Çdo segment i fjalimit konvertohet në një zë të përfshirë, një vektor kompakt që kap karakteristikat vokale unike të folësit.

Grupimi dhe etiketimi

Embeddings janë të grupuara për të grupuar segmentet nga i njëjti folës së bashku, pastaj çdo grup është caktuar një etiketë (Falës 1, Folës 2, etj.).

Përdor rastet për zbulimin e folësit

Transkriptimi i takimit

Etiketo automatikisht çdo pjesëmarrës në regjistrimet e takimit. Gjenerati minutat me atribuimin e qartë të asaj se kush tha çfarë.

Transkriptimi i Podcast

Ndrysho mes mikpritësve dhe mysafirëve në episodet e podcast. Krijo shënime shfaqjeje me atribuimin e duhur të folësit.

Intervistë

Përgjigjet e intervistuesit dhe të intervistuarit për kërkim, gazetari dhe dokumentet e punësimit.

Ligji dhe përputhshmëria

Krijoni regjistrime zyrtare të dëshmive, dëgjime, dhe thirrjet e përputhshmërisë me identifikimin e qartë të folësit.

Zbulimi i zërit në STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Provo zbulimin e zërit tani

Ngarko një regjistrim me shumë zëra dhe shiko zërat e etiketuar automatikisht.

Fillo transkriptimin

Pyetje të shpeshta

zbulimi i zërit është duke u kryer në shfletuesin tuaj: ngjite një URL, ngarko një file, ose regjistro nga mikrofoni yt. STT.ai zgjedh modelin AI dhe kthen transkriptimin në më pak se 5 minuta. Eksporto si TXT, SRT, VTT, DOCX, JSON, ose PDF.

Po — çdo vizitor merr 600 minuta falas për të filluar në STT.ai, të përdorshme për zbulimi i zërit si çdo rrjedhje tjetër pune. Planet e paguar që fillojnë nga $5/muaj bllokojnë file më të gjatë, transkripta private dhe renditje në radhë me përparësi.

zbulimi i zërit punon me të njëjtin model AI si pjesa tjetër e STT.ai — modelet tona më të mira arrijnë 95-97% saktësi në fjalimin e qartë (3-5% norma e gabimit të fjalës në standartet). Ndrysho modelet në menyrë të menjëhershme nëse kalimi i parë është nën objektivin tënd.

zbulimi i zërit mund të ekzekutohet në çdo model STT.ai prej 10+ — STT.ai Enhanced (më i saktë), Whisper Large V3 (99 gjuhë), NVIDIA Canary (#1 WER në langët e mbështetura), Whisper Turbo (i shpejtë), Moonshine (i lehtë), dhe më shumë.

Po. Çdo transkriptim eksportohet si SRT ose VTT — punon me YouTube, Vimeo, TikTok, VLC dhe çdo video player të madh. Instrumenti i shkrirjes së subtitrave i mbivendos ata në video si hardsubs.

Po. Diarization Speaker etiketon automatikisht çdo zë (Speaker 1, Speaker 2,...) dhe mund t'i riemërtoni ata në editorin e ndërtuar. Punon në të gjitha modelet dhe gjuhët.

Shumica e zbulimi i zërit punëve përfundojnë në më pak se 5 minuta. Një file audio 1 orë zakonisht përfundon në 2-3 minuta me modelet tona më të shpejta. Shpejtësia varet nga modeli i zgjedhur dhe ngarkesa aktuale e GPU.

zbulimi i zërit pranon më shumë se 20 formate — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, etj. Shfaqja në TXT, SRT, VTT, DOCX, JSON ose PDF.

Po. File audio të dërguar tek zbulimi i zërit janë përpunuar dhe eleminuar në mënyrë të paracaktuar. Planet Pro shtojnë kriptim në anën e klientit - edhe nëse baza e të dhënave e STT.ai është e dëmtuar, transkriptet tuaja janë të pa lexueshme pa çelësin tuaj. Të dhënat nuk përdoren kurrë për trainimin e modeleve pa opsionin e hapur.

Po. STT.ai ofron një API REST me Python dhe Node.js SDK, plus një server MCP për Claude dhe Cursor — të gjitha të përdorshme për zbulimi i zërit workflows. Niveli i API pa pagesë përfshin 100 minuta në muaj.

Po. Çdo transkriptim hapet në editorin e ndërtuar ku mund të korrigjosh fjalët, të riemrosh folësit, të rregullosh shtyllat e kohës dhe të shtosh shënime. Të gjitha ndryshimet ruhen automatikisht.

Çdo transkriptim merr një URL të vetme të ndarë. Eksporto në DOCX ose PDF për email. Planet Pro shtojnë lidhje të përhershme të mbrojtura me fjalëkalim - të dobishme për punën me klientët.

STT.ai trajton 1,300+ platforma duke përfshirë YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, dhe më shumë. URL transcription punon me përmbajtje publike në dispozicion vetëm - burimet e mbrojtura nga DRM nuk mund të transkribohen.

Zbulimi i folësit dhe Diarization

Çfarë është Dializa e Folësit?

Si funksionon zbulimi i folësit

Zbulimi i veprimtarisë së zërit

2. Përfshirja e zërit

Grupimi dhe etiketimi

Përdor rastet për zbulimin e folësit

Zbulimi i zërit në STT.ai

Provo zbulimin e zërit tani

Pyetje të shpeshta

Si funksionon zbulimi i zërit në STT.ai?

A është zbulimi i zërit e lirë?

Sa i saktë është zbulimi i zërit?

Çfarë modele AI mund të përdor për zbulimi i zërit?

A mund të marr subtitrat nga zbulimi i zërit?

zbulimi i zërit zbulon zëra të ndryshëm?

Sa kohë do të marrë zbulimi i zërit?

Çfarë formatesh input suporton zbulimi i zërit?

A është audio im privat kur përdor zbulimi i zërit?

A ekziston një zbulimi i zërit API?

A mund të ndryshoj një zbulimi i zërit transkriptë më pas?

Si mund të ndaj atë që prodhon zbulimi i zërit?

Çfarë platformash të tjera punojnë përtej zbulimi i zërit?