Teata veast / Omaduse päring

Speaker Detection & Diarization

Audio- ja videotranskriptsioonides erinevate kõnelejate automaatne tuvastamine ja märgistamine. Tea täpselt, kes mida ütles.

Töötab avalikult kättesaadava audio & videoga. DRM- ga kaitstud sisu ei ole toetatud.

Täiustatud täiustamine

Erakirja ärakiri

Vestlus ärakirjaga

Ava koos Pro' ga →

Faili viskamine siia või klõpsa sirvimiseks

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM ~ kuni 2GB

Paki üles mitu faili koos Pro' ga

Täiustatud täiustamine

Erakirja ärakiri

Vestlus ärakirjaga

Ava koos Pro' ga →

Täiustatud täiustamine

Reaalajas kõne teksti. AI automaatkorrektsioonid rääkides paraneb pikema kõnega.

Testige kõigepealt oma mikrofoni.

10 vaba minutit päevas 600 min tasuta registreerumisega Krediitkaarti pole Krüptitud

Registreeru tasuta →

Mis on spiikerdiarisatsioon?

Speaker diarization on protsess jagamine audio oja segmentideks vastavalt kõneleja identiteedile. Lihtsamalt öeldes, see vastab küsimusele "kes rääkis millal?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Kuidas kõlari tuvastamine toimib

1. Hääle aktiivsuse tuvastamine

Süsteem teeb kõigepealt kindlaks, millised audiolõigud sisaldavad kõnet vaikuse, muusika või taustamüra vastu.

2. Spiiker Embedding

Iga kõnesegment teisendatakse kõlariks - kompaktne vektor, mis haarab kõneleja ainulaadsed häälejooned.

3. Klastri ja sildistamine

Põimimine on koondunud rühmade segmentide sama kõneleja koos, siis iga klastri on määratud silt (Speaker 1, Speaker 2 jne).

Kõlari tuvastamisel kasutatavad kastid

Transkriptsioon

Märgib automaatselt iga osaleja koosoleku salvestused. Loo minutit selge omistamine kes ütles, mida.

Podcast Transkriptsioon

Eristamine võõrustaja ja külaliste Podcast episoodid. Loo näidata märkmeid õige kõneleja määramine.

Intervjuu Transkriptsioon

Eraldi intervjueerija ja intervjueerija vastused teadustöö, ajakirjanduse ja rentides dokumente.

Õiguslik ja vastavus

Luua ametlikke andmeid tunnistuste, ärakuulamiste ja nõuetele vastavuse kõned selge kõneleja identifitseerimine.

Speaker Detection STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Proovige valjuhääldi avastamist.

Laadib üles mitme kõlari salvestuse ja näeb kõlareid automaatselt sildistatud.

Start Transmarging Free

Korduma kippuvad küsimused

valjuhääldi tuvastus töötab brauseris: kleebi URL, laadi fail üles või salvesta mikrofon. STT.ai valib AI mudeli ja tagastab ärakirja vähem kui 5 minutiga. Ekspordi TXT, SRT, VTT, DOX, JSON või PDF.

Jah ~ iga külastaja saab 600 vaba minutit alustada STT.ai, kasutatav valjuhääldi tuvastus sama mis iga muu töövoog. Tasulised plaanid alates $5/kuu avada pikemaid faile, era-transkriptid, ja prioriteet järjekorda.

valjuhääldi tuvastus töötab samade AI mudelitega nagu ülejäänud STT.ai ~ meie parimad mudelid ulatuvad 95-97% täpsuseni puhta kõne (35% Wordi veamäär võrdlusandmetel).

valjuhääldi tuvastus võib töötada ükskõik millisel STT.ai mudelil 10+ ~ STT.ai Täiustatud (kõige täpsem), Whisper Large V3 (99 keeles), NVIDIA Canary (# 1 WER toetatud langidel), Whisper Turbo (kiire), Moonshine (kergekaaluline) ja muud.

Jah. Iga transkripti eksport kui SRT või VTT ~ töötab YouTube'i, Vimeo, TikTok'i, VLC'i ja iga suurema videomängijaga. Kirjutamisallkirjad katavad need kõvakettana videosse.

Jah. Kõlari diariseerimine tähistab automaatselt iga häält (Speaker 1, Speaker 2,...) ja saab ümber nimetada sisseehitatud redaktoris. Töötab kõigis mudelites ja keeltes.

Enamik valjuhääldi tuvastus töid lõpeb vähem kui 5 minutiga. 1- tunnine audiofail lõpetab tavaliselt 2-3 minutiga meie kiireimad mudelid. Kiirus sõltub valitud mudelist ja praegusest GPU koormusest.

valjuhääldi tuvastus aktsepteerib 20+ formaate ~ MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI ja rohkem. Väljund TXT, SRT, VTT, DOX, JSON või PDF.

Jah. valjuhääldi tuvastus esitatud audiofaile töödeldakse ja kustutatakse vaikimisi. Proplaanid lisavad kliendipoolse krüptimise ® isegi siis, kui STT.ai andmebaasist on sissemurdmine, on sinu transkriptid ilma võtmeta loetamatud. Andmeid ei kasutata kunagi mudelikoolituseks ilma selgesõnalise valikuta.

Jah. STT.ai pakub REST API Pythoni ja Node.js SDKS, pluss MCP server Claude ja Cursor ~ kõik kasutatavad valjuhääldi tuvastus töövood. Tasuta API tase sisaldab 100 minutit / kuu.

Jah. Iga üleskirjutus avaneb sisseehitatud redaktoris, kus saab sõnu parandada, kõlareid ümber nimetada, ajatemplit kohandada ja märkmeid lisada. Kõik muudatused salvestatakse automaatselt.

Iga transkript saab unikaalse jagatud URL. Ekspordi DOX või PDF e-posti. Pro plaanid lisada parooliga kaitstud ja püsiva linke ® kasulik kliendi töö.

STT.ai käepidemed 1300+ platvormid sealhulgas YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, ja rohkem. URL transkriptsioon töötab avalikult kättesaadavat sisu ainult ~ DRM-kaitsega allikad ei saa transkribeerida.

Speaker Detection & Diarization

Mis on spiikerdiarisatsioon?

Kuidas kõlari tuvastamine toimib

1. Hääle aktiivsuse tuvastamine

2. Spiiker Embedding

3. Klastri ja sildistamine

Kõlari tuvastamisel kasutatavad kastid

Speaker Detection STT.ai

Proovige valjuhääldi avastamist.

Korduma kippuvad küsimused

Kuidas valjuhääldi tuvastus STT.ai-ga töötab?

Kas valjuhääldi tuvastus on vaba?

Kui täpne on valjuhääldi tuvastus?

Milliseid AI mudeleid ma saan kasutada valjuhääldi tuvastus?

Kas ma saan subtiitrid valjuhääldi tuvastus?

Kas valjuhääldi tuvastus tuvastab erinevaid kõlareid?

Kui kaua valjuhääldi tuvastus läheb?

Milliseid sisendvorminguid valjuhääldi tuvastus toetab?

Kas mu audio on privaatne, kui ma kasutan valjuhääldi tuvastus?

Kas seal on valjuhääldi tuvastus API?

Kas ma võin muuta valjuhääldi tuvastus transkripti pärast?

Kuidas jagada seda, mida valjuhääldi tuvastus toodab?

Millised teised platvormid töötavad üle valjuhääldi tuvastus?