Txostendu programa- errorea / Eskaera

Ahoskari detekzioa eta diarizazioa

Automatikoki identifikatu eta etiketatu hizlariak audio eta bideo transkripzioetan. Jakin zehazki nork esan duen zer.

Audio eta bideo publikoekin lan egiten du. DRM-rekin babestutako edukia ez da onartzen.

Hobetua bertsio-berritzeko

Transkriptu pribatua

Berriketa transkribatuarekin

Desblokeatu Pro-rekin →

Arrastatu fitxategia hona edo egin klik arakatzeko

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 2 GB arte

Igo fitxategi anitz batch moduan Pro-rekin

Hobetua bertsio-berritzeko

Transkriptu pribatua

Berriketa transkribatuarekin

Desblokeatu Pro-rekin →

Hobetua bertsio-berritzeko

Hitzetik testura denbora errealean. AIk automatikoki zuzentzen du hitz egiten duzunean — zehaztasuna hobetzen da hizketa luzeagoa denean.

Probatu mikrofonoa lehenik

10 minutu libre/eguna 600 min doan izena ematearekin Kreditu-txartelik ez Enkriptatuta

Izena eman doan →

Zer da hiztun-dialisia?

Ahoskatzen duenaren identitatearen arabera audio-korrontea segmentuetan zatitzeko prozesua da hiztun-diarizazioa. Hitz sinpleagoetan, "nork eta noiz hitz egin duen?" galderari erantzuten dio. This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Ahoskatzen duenaren detekzioak nola funtzionatzen duen

1. Ahots-jardueraren detekzioa

Sistemak lehenik identifikatzen du zein audio segmentu dituen hizketa, isiltasuna, musika edo atzeko planoko zarataren aldean.

2. Ahoskari kapsulatua

Hitz segmentu bakoitza hiztun-inkorporazio bihurtzen da, hiztunaren ahots-karaktere bakarrak harrapatzen dituen bektore trinko bat.

3. Klusterizazioa eta etiketatzea

Talde bakoitzak bere burua izendatzeko erabiltzen du, eta talde bakoitzak bere burua izendatzeko erabiltzen du bere izena (1. taldea, 2. taldea, etab.).

Ahoskari-detekziorako kasu erabilgarriak

Bilera-transkribapena

Etiketatu automatikoki parte-hartzaile bakoitza bileren grabazioetan. Sortu aktak, nork zer esan duen argi adierazita.

Podcast transkribapena

Bereiztu ostalaria eta gonbidatua podcast-eko ataletan. Sortu saioko oharrak hizlariaren atribuzio egokiarekin.

Elkarrizketaren transkribapena

Elkarrizketatzailearen eta elkarrizketatuaren erantzunak bereiztea ikerketa, kazetaritza eta kontratazio-dokumentazioa egiteko.

Legezkoa eta betebeharrak

Egileak, egile-eskubideak, erreklamazioak eta bestelako informazioa jasotzeko eskubidea du, eta, hala badagokio, erreklamazio-eskubidea.

Ahoskatzeko detektazioa STT.ai-en

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Saiatu orain bozgorailuaren detekzioa

Igo bozgorailu anitzeko grabazio bat eta ikusi bozgorailuak automatikoki etiketatuak.

Hasi transkribapen librea

Maiz egiten diren galderak

bozgorailuaren detekzioa zure arakatzailean exekutatzen da: URL bat itsatsi, fitxategi bat igo edo mikrofonotik grabatu. STT.aik AI eredua aukeratzen du eta transkribapena 5 minutu baino gutxiagotan itzultzen du. Esportatu TXT, SRT, VTT, DOCX, JSON edo PDF gisa.

Bai — bisitari bakoitzak 600 minutu doan jasotzen ditu STT.ai-n hasteko, bozgorailuaren detekzioa-n erabiltzeko beste edozein lan-fluxutan bezala. Ordainpeko planek, $5/hilean hasita, fitxategi luzeagoak, transkribapen pribatuak eta lehentasun-ilara blokeatzen dituzte.

bozgorailuaren detekzioa STT.aiko gainerako AI eredu berberetan exekutatzen da — gure modelorik onenek %95-97ko zehaztasunarekin hitz egiten dute garbi (%3-5eko hitz-errore-tasa benchmarketan). Aldatu modeloa berehala lehen pasabidea zure helburuaren azpitik badago.

bozgorailuaren detekzioa STT.airen 10+ modeloetako edozeinetan exekutatu daiteke — STT.ai Enhanced (zehatzagoa), Whisper Large V3 (99 hizkuntza), NVIDIA Canary (#1 WER onartutako langetan), Whisper Turbo (azkarra), Moonshine (arina) eta beste batzuk.

Bai. Transkriptu guztiak SRT edo VTT gisa esportatzen dira — YouTube, Vimeo, TikTok, VLC eta bideo-erreproduzitzaile nagusi guztiekin funtzionatzen du. Grabatu azpitituluak tresnak bideoan gainjarri egiten ditu azpititulu gogor gisa.

Bai. Ahoskari-diagramak automatikoki etiketatzen du ahots bakoitza (1. ahoskaria, 2. ahoskaria,...) eta editore barnean izenez aldatu ditzakezu. Modelo eta hizkuntza guztietan funtzionatzen du.

bozgorailuaren detekzioa lan gehienak 5 minutu baino gutxiagotan amaitzen dira. Ordu bateko audio-fitxategi bat 2-3 minututan amaitzen da gure modelo azkarrenekin. Abiadura aukeratutako modeloaren eta uneko GPU kargaren araberakoa da.

bozgorailuaren detekzioa(e)k 20 formatu baino gehiago onartzen ditu: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI eta beste batzuk. Irteera TXT, SRT, VTT, DOCX, JSON edo PDF gisa.

Bai. bozgorailuaren detekzioa(e)ra bidalitako audio-fitxategiak lehenespenez prozesatu eta ezabatu egiten dira. Pro planek bezeroaren aldeko enkriptatzea gehitzen dute - STT.airen datu-basea urratu bada ere, zure transkribapenak irakurgaiak izango dira gakoa gabe. Datuek ez dute inoiz ereduen entrenamendurako balio, parte hartzeko aukera esplizitua eman gabe.

Bai. STT.aik Python eta Node.js SDK-ekin REST API bat eskaintzen du, Claude eta Cursor-entzako MCP zerbitzari bat gehituz — bozgorailuaren detekzioa lan-fluxuetarako erabilgarriak. API doako maila 100 minutu/hilekoa da.

Bai. Transkribapen bakoitza editore barnean irekitzen da, eta bertan hitzak zuzendu, hizlarien izenak aldatu, ordu-zigiluak doitu eta oharrak gehitu ditzakezu. Aldaketa guztiak automatikoki gordetzen dira.

Transkribapen bakoitzak URL partekagarri bakarra jasotzen du. Esportatu DOCX edo PDF formatuan posta elektronikorako. Pro planek pasahitz babestuak eta esteka iraunkorrak gehitzen dituzte, bezeroen lanerako erabilgarriak.

STT.aik 1.300 plataforma baino gehiago kudeatzen ditu, YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast host-ak eta beste batzuk barne. URL transkribapenak eduki publikoekin bakarrik funtzionatzen du - DRM-k babestutako iturriak ezin dira transkribatu.

Ahoskari detekzioa eta diarizazioa

Zer da hiztun-dialisia?

Ahoskatzen duenaren detekzioak nola funtzionatzen duen

1. Ahots-jardueraren detekzioa

2. Ahoskari kapsulatua

3. Klusterizazioa eta etiketatzea

Ahoskari-detekziorako kasu erabilgarriak

Ahoskatzeko detektazioa STT.ai-en

Saiatu orain bozgorailuaren detekzioa

Maiz egiten diren galderak

Nola funtzionatzen du bozgorailuaren detekzioak STT.ain?

bozgorailuaren detekzioa libre dago?

Zenbat da zehatza bozgorailuaren detekzioa?

Zein AI modelo erabil ditzaket bozgorailuaren detekzioa(r)entzako?

Lor al ditzaket azpitituluak bozgorailuaren detekzioa(e)tik?

bozgorailuaren detekzioa(e)k beste ahots batzuk detektatzen ditu?

Zenbat denbora behar du bozgorailuaren detekzioak?

Zein sarrerako formatu onartzen ditu bozgorailuaren detekzioak?

Nire audioa pribatua da bozgorailuaren detekzioa erabiltzen dudanean?

Ba al dago bozgorailuaren detekzioa API bat?

Editatu al dezaket bozgorailuaren detekzioa transkribapen bat ondoren?

Nola partekatu bozgorailuaren detekzioak sortzen duena?

Zein beste plataformak funtzionatzen du bozgorailuaren detekzioa-tik kanpo?