Bug / Feature Request mellen

Sprooche- a Sproochewëssenschaft

Automatisch identifizéieren an bezeechent verschidde Sprecher an Ären Audio- a Videotranskripten. Wësst genau, wien wat gesot huet.

Funktionéiert mat ëffentlech verfügbaren Audio- a Videodateien. DRM-geschützte Inhalt gëtt net ënnerstëtzt.

Upgrade fir erweidert

Privattranskriptioun

Chat mat Transkriptioun

D'Spill ass gratis. →

Datei heihin zéien oder klickt fir ze sichen

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — bis zu 2 GB

Batch-Upload vu méi Dateien Pro

Upgrade fir erweidert

Privattranskriptioun

Chat mat Transkriptioun

D'Spill ass gratis. →

Upgrade fir erweidert

Echtzäit-Sprooch-zu-Text. AI korrigéiert automatesch wann Dir schwätzt - d'Genauegkeet verbessert sech mat méi laanger Sprooch.

Testen Sie zuerst Ihren Mikrofon

10 gratis Minutten/Dag 600 Joer Lëtzebuerger Literatur Kreditkaart Verschlësselt

Gratis anmelden →

Wat ass eng Diagnos?

Speaker Diary ass de Prozess vun der Partitionéierung vun engem Audiostream an Segmenter no der Identitéit vum Sprecher. An einfachere Wierder, et beäntwert d'Fro "Wéi a wéini huet gesot?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

D'Sprooche vum Land

Sproochaktivitéit

D'Sprooch ass eng vun de wichtegsten Elementer, déi d'Sprooche mat der Musek, der Sproochekultur oder der Sproochekultur verbonnen hunn.

Lëscht vun de lëtzebuergesche Moler

All Sprooch huet e spezifescht Sproochesystem, dat sech duerch d'Sprooche vum Sproochegrupp ënnerscheet.

Clustering & Labeling

D'Spill ass an dräi Phasen opgedeelt, déi all eng aner Roll spillen (1., 2., 3.).

Lëscht vun de lëtzebuergesche Sprooche

Meeting Transkriptioun

Automatisch all Deelnehmer an der Besprechungsaufnahme bezeechen. Protokoller mat enger klorer Zuweisung vun deem wat gesot gouf generéieren.

Websäit vum Podcast

Ënnerscheet tëscht Host a Gäscht an Podcast Episoden. Erstellt Show Notizen mat der richteger Sprecher Attributioun.

Interview mat der Redaktioun

Et gëtt och e puer aner Aktivitéiten, wéi zum Beispill d'Recherche, d'Journalistik oder d'Publikatioun.

Legal & Compliance

Et gëtt och eng Rei vun Informatiouns-, Informatiouns- a Kommunikatiounszentren.

Speaker Detection on STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Lautsprechererkennung elo probéieren

Et gëtt och eng Rei vu Video- a Audio-Opnamen.

D'Transkriptioun ass gratis.

Häufig gestallte Froen

Lautsprechererkennung leeft an Ärem Browser: fügt eng URL an, laadt eng Datei erop oder huelen aus Ärem Mikro op. STT.ai wielt d'KI-Modell aus an zitt d'Transkriptioun an ënner 5 Minutten zréck. Exportéiert als TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja — all Besucher kritt 600 gratis Minutten fir op STT.ai ze starten, déi fir Lautsprechererkennung wéi all aner Workflows benotzt kënne ginn. Bezuelte Pläng, déi vu $5/Mount ugefaangen, erlaben méi laang Dateien, privat Transkriptiounen a Prioritéits-Queuen.

Lautsprechererkennung leeft op de selwechte KI-Modeller wéi den Rest vun STT.ai - eis bescht Modeller erreechen 95-97% Genauegkeet bei klorer Sprooch (3-5% Wuertfehlerquote bei Benchmarks). Wechseln Sie Modelle auf der Flucht, wenn die erste Passe unterhalb Ihres Ziels ist.

Lautsprechererkennung can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Ja. All Transkriptioun gëtt als SRT oder VTT exportéiert - funktionnéiert mat YouTube, Vimeo, TikTok, VLC an all grousse Videospiller. D'Brenn-Ënnertitelen-Tool iwwerdeckt se op Videoen als Hardsubs.

Ja. D' Sprecher- Diariséierung bezeechent all Stëmm automatesch (Sprecher 1, Sprecher 2,...) an Dir kënnt se am integréierten Editor ëmnennen. Funktiounéiert op all Modeller a Sproochen.

D'Meeschte Lautsprechererkennung Aufgaben sinn an ënner 5 Minutten ofgeschloss. Eng Audiodatei vun enger Stonn ass normalerweis an 2-3 Minutten ofgeschloss mat eise séiersten Modeller. D'Geschwindegkeet hänkt vum gewielten Modell an der aktueller GPU-Belaaschtung of.

Lautsprechererkennung akzeptéiert méi wéi 20 Formater — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, an aner. Ausgabeformat: TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja. Audiodateien déi un Lautsprechererkennung geschéckt ginn, ginn standardméisseg veraarbecht an ewechgeholl. Pro-Pläng bidden Client-säiteg Verschlësselung - och wann d'STT.ai-Datebank gebrach gëtt, sinn Är Transkriptiounen ouni Äre Schlëssel net liesbar. D'Daten ginn ni fir Modelltraining benotzt ouni explizit Opt-in.

D'STT.ai bitt eng REST API mat Python an Node.js SDKs, plus en MCP Server fir Claude an Cursor — all fir Lautsprechererkennung Workflows benotzt. D'Free API Tier enthält 100 Minutten / Mount.

Ja. All Transkriptioun gëtt am integréierten Editor opgemaach, wou Dir Wierder korrigéiere kënnt, Sprecher ëmnennen, Zäitstempelen upassen an Notizen bäifügen. All Ännerunge ginn automatesch gespäichert.

All Transkript kritt eng eenzegaarteg URL fir ze deelen. Exportéiert als DOCX oder PDF fir E-Mail. Pro-Pläng addéieren passwuertgeschützt a permanent Links - nëtzlech fir Clientsaarbecht.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.

Sprooche- a Sproochewëssenschaft

Wat ass eng Diagnos?

D'Sprooche vum Land

Sproochaktivitéit

Lëscht vun de lëtzebuergesche Moler

Clustering & Labeling

Lëscht vun de lëtzebuergesche Sprooche

Speaker Detection on STT.ai

Lautsprechererkennung elo probéieren

Häufig gestallte Froen

Wéi funktionnéiert Lautsprechererkennung op STT.ai?

Ass Lautsprechererkennung fräi?

Wéi genee ass Lautsprechererkennung?

Wat fir KI-Modeller kann ech fir Lautsprechererkennung benotzen?

Kann ech Ënnertitelen aus Lautsprechererkennung kréien?

Erkennt Lautsprechererkennung verschidde Lautsprecher?

Wéi laang dauert Lautsprechererkennung?

Wat fir Inputformater gëtt vum Lautsprechererkennung ënnerstëtzt?

Ass meng Audio privat wann ech Lautsprechererkennung benotze?

Ass et eng Lautsprechererkennung API?

Kann ech eng Lautsprechererkennung Transkriptioun nodeem bearbeiten?

Wéi deelen ech dat wat Lautsprechererkennung produzéiert?

Op wéi enge Plattformen funktionnéiert et nieft Lautsprechererkennung?