Irrapporta Bug / Feature Talba

Speaker Sejbien & Diarization

Identifika u tikketta awtomatikament kelliema differenti fit-traskrizzjonijiet tal-awdjo u tal-vidjow tiegħek.Kun af eżattament min qal x'inhu.

Xogħlijiet mal-awdjo disponibbli pubblikament & vidjo. DRM-protett kontenut mhux appoġġjat.

Aġġornament għal Imsaħħaħ

Tranżazzjoni privata

Chat ma transkript

Unlock ma Pro →

Qatra fajl hawn jew ikklikkja biex tibbrawżja

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM - sa 2GB

Batch upload fajls multipli ma’ Pro

Aġġornament għal Imsaħħaħ

Tranżazzjoni privata

Chat ma transkript

Unlock ma Pro →

Aġġornament għal Imsaħħaħ

Diskors f'ħin reali għal test. AI awtomatikament jikkoreġi kif titkellem — l-eżattezza titjieb b'diskors itwal.

Ittestja l-mikrofonu tiegħek l-ewwel

10 min/jum b’xejn 600 min b'xejn b'reġistrazzjoni Ebda karta ta' kreditu Encrypted

Irreġistra b'xejn →

X'inhu Speaker Diarization?

Id-dijarizzazzjoni tal-kelliem hija l-proċess li bih il-fluss awdjo jiġi maqsum f'segmenti skont l-identità tal-kelliem, u b'mod aktar sempliċi, din twieġeb il-mistoqsija "min tkellem meta?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Kif Speaker Sejbien Xogħlijiet

1. Voice Attività sejbien

Is-sistema l-ewwel tidentifika liema segmenti tal-awdjo fihom diskors kontra s-silenzju, mużika, jew ħoss fl-isfond.

2. Speaker inkorporazzjoni

Kull segment diskors huwa kkonvertit f'speaker inkorporazzjoni - vettur kompatti li jaqbad il-karatteristiċi vokali uniċi tal-kelliem.

3. Ir-raggruppament u t-tikkettar

Inkorporazzjonijiet huma raggruppati biex segmenti grupp mill-istess kelliem flimkien, imbagħad kull raggruppament huwa assenjat tikketta (Speaker 1, Speaker 2, eċċ).

Uża Każijiet għall-Iskoperta tal-Ispeaker

Traskrizzjoni tal-laqgħa

Awtomatikament tikketta kull parteċipant fil-laqgħat reġistrazzjonijiet.Jiġġeneraw minuti b'attribuzzjoni ċara ta' min qal x'inhu.

Podcast Traskrizzjoni

Jiddistingwu bejn l-ospitanti u l-mistednin fl-episodji podcast. Oħloq juru noti b'attribuzzjoni kelliem xierqa.

Intervista Traskrizzjoni

Separa intervistatur u intervistat tweġibiet għar-riċerka, ġurnaliżmu, u l-kiri dokumentazzjoni.

Legali & konformità

Oħloq rekords uffiċjali ta’ depożiti, seduti u sejħiet ta’ konformità b’identifikazzjoni ċara tal-kelliem.

Speaker Sejbien fuq STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Ipprova l-iskoperta tal-kelliem issa

Upload reġistrazzjoni multi-speaker u ara kelliema awtomatikament tikkettati.

Ibda Traskrizzjoni b'xejn

Mistoqsijiet li jsiru ta’ spiss

sejbien tal-kelliem jaħdem fil-browser tiegħek: waħħal URL, ittella 'fajl, jew irreġistra mill-mikrofonu tiegħek. STT.ai jagħżel il-mudell AI u jirritorna t-tranżmissjoni f'inqas minn 5 minuti. Esportazzjoni bħala TXT, SRT, VTT, DOCX, JSON, jew PDF.

Iva — kull viżitatur jikseb 600 minuta b'xejn biex tibda fuq STT.ai, li jistgħu jintużaw għal sejbien tal-kelliem l-istess bħal kwalunkwe flussi tax-xogħol oħra.Pjanijiet imħallsa li jibdew minn $ 5 / xahar unlock fajls itwal, tranżazzjonijiet privati, u prijorità fil-kju.

sejbien tal-kelliem jaħdem fuq l-istess mudelli AI bħall-bqija ta ’STT.ai - l-aħjar mudelli tagħna jilħqu 95-97% preċiżjoni fuq diskors nadif (3-5% Rata ta’ Żball tal-Kelma fuq il-punti ta ’referenza).Ibdel il-mudelli fuq il-fly jekk l-ewwel pass ikun taħt il-mira tiegħek.

sejbien tal-kelliem jistgħu jimxu fuq kwalunkwe mill-mudelli 10+ ta ’STT.ai - STT.ai Imsaħħa (l-aktar preċiżi), Whisper Large V3 (99 lingwa), NVIDIA Canary (#1 WER fuq langs appoġġjati), Whisper Turbo (mgħaġġel), Moonshine (piż ħafif), u aktar.

Iva. Kull transcript esportazzjonijiet bħala SRT jew VTT — xogħlijiet ma YouTube, Vimeo, TikTok, VLC, u kull plejer tal-vidjo maġġuri. l-għodda ħruq-sottotitoli overlays minnhom fuq il-vidjo bħala hardsubs.

Iva. Il-qari tad-dijarji tal-kelliema awtomatikament jittikketta kull vuċi (Speaker 1, Speaker 2,...) u tista' tissejjaħ mill-ġdid fl-editur inkorporat. Jaħdem fuq il-mudelli u l-lingwi kollha.

Il-biċċa l-kbira sejbien tal-kelliem xogħlijiet jispiċċaw f'inqas minn 5 minuti. Fajl awdjo ta ’siegħa tipikament jitlesta fi 2-3 minuti bl-aktar mudelli mgħaġġla tagħna. Il-veloċità tiddependi fuq il-mudell magħżul u t-tagħbija attwali tal-GPU.

sejbien tal-kelliem jaċċetta formati 20 + - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, u aktar.Output għal TXT, SRT, VTT, DOCX, JSON, jew PDF.

Iva. Fajls awdjo sottomessi lil sejbien tal-kelliem huma pproċessati u mħassra awtomatikament. Il-pjanijiet Pro jżidu l-kriptaġġ min-naħa tal-klijent - anke jekk id-database ta ’STT.ai tkun miksura, it-tranżazzjonijiet tiegħek ma jistgħux jinqraw mingħajr iċ-ċavetta tiegħek. Id-data qatt ma tintuża għat-taħriġ tal-mudell mingħajr opt-in espliċitu.

Iva. STT.ai joffri REST API ma Python u Node.js SDKs, flimkien ma server MCP għal Claude u Cursor — kollha li jistgħu jintużaw għal sejbien tal-kelliem workflows. ħielsa API saff jinkludi 100 minuta/xahar.

Iva, kull traskrizzjoni tinfetaħ fl-editur integrat fejn tistaʼ tikkoreġi l-kliem, tibdel l-ismijiet tal-kelliema, taġġusta l-ħinijiet, u żżid in-noti. Il-bidliet kollha jinħażnu awtomatikament.

Kull transcript tikseb URL uniku shareable. esportazzjoni għall DOCX jew PDF għall-email. Pro pjani żid password protetti u permanenti links - utli għall-ħidma tal-klijent.

STT.ai jimmaniġġja 1,300 + pjattaformi inklużi YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google jiltaqgħu, podcast ospitanti, u aktar. URL tranżmissjoni xogħlijiet mal-kontenut pubblikament disponibbli biss - sorsi protetti DRM ma jistgħux jiġu tradotti.

Speaker Sejbien & Diarization

X'inhu Speaker Diarization?

Kif Speaker Sejbien Xogħlijiet

1. Voice Attività sejbien

2. Speaker inkorporazzjoni

3. Ir-raggruppament u t-tikkettar

Uża Każijiet għall-Iskoperta tal-Ispeaker

Speaker Sejbien fuq STT.ai

Ipprova l-iskoperta tal-kelliem issa

Mistoqsijiet li jsiru ta’ spiss

Kif jaħdem sejbien tal-kelliem fuq STT.ai?

sejbien tal-kelliem huwa b'xejn?

Kemm hu preċiż sejbien tal-kelliem?

Liema mudelli tal-AI nista' nuża għal sejbien tal-kelliem?

Nista' nikseb sottotitli minn sejbien tal-kelliem?

sejbien tal-kelliem jiskopri kelliema differenti?

Kemm idum sejbien tal-kelliem jieħu?

Liema formati ta' input jappoġġja sejbien tal-kelliem?

L-awdjo tiegħi huwa privat meta nuża sejbien tal-kelliem?

Hemm sejbien tal-kelliem API?

Nista' neditja sejbien tal-kelliem tranżkript wara?

Kif nista' naqsam dak li jipproduċi sejbien tal-kelliem?

Liema pjattaformi oħra jaħdmu lil hinn minn sejbien tal-kelliem?