Speakererkennung & Diarisierung

Automatische Identifizierung und Kennzeichnung verschiedener Lautsprecher in Ihren Audio- und Video-Transkriptionen. Wissen Sie genau, wer was gesagt hat.

Funktioniert mit öffentlich zugänglichem Audio & Video. DRM-geschützte Inhalte werden nicht unterstützt.

Upgrade für Verbesserte
Private transcript
Chatten Sie mit Transkript
Entsperren mit Pro →
Drop-Datei hier oder klicken Sie zum Durchsuchen
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — bis zu 2 GB
Upgrade für Verbesserte
Private transcript
Chatten Sie mit Transkript
Entsperren mit Pro →
Upgrade für Verbesserte
Aufzeichnung: 0:00
In Echtzeit Vosk (instant)
Verstärkt Flüstern (genau)
Öffentliche Links: 24h, nur Text · Melden Sie sich an für 7d + Audio · Pro für private Links

Echtzeit-Sprache zu Text. AI-Auto-Korrekturen, wie Sie sprechen – Genauigkeit verbessert sich mit längeren Sprache.

Testen Sie zuerst Ihr Mikrofon
❤️ Liebe STT.ai? Erzählen Sie Ihren Freunden!
Du hast deine freien Transkriptionen benutzt.

Melden Sie sich kostenlos an, um 600 Minuten/Monat zu erhalten, oder aktualisieren Sie für unbegrenzte Transkriptionen.

10 kostenlos min/Tag 600 min frei mit Anmeldung Keine Kreditkarte Verschlüsselt
Melde dich kostenlos an →

Was ist Speaker Diarization?

Speaker-Diarisierung ist der Prozess der Partitionierung eines Audio-Streams in Segmente nach der Identität des Sprechers. Einfacher gesagt, beantwortet es die Frage "Wer sprach wann?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Wie Lautsprechererkennung funktioniert

1. Sprachaktivitätserkennung

Das System identifiziert zunächst, welche Audiosegmente Sprache gegen Stille, Musik oder Hintergrundgeräusche enthalten.

2. Sprecher Einbetten

Jedes Sprachsegment wird in eine Lautsprechereinbettung umgewandelt -- ein kompakter Vektor, der die einzigartigen vokalen Eigenschaften des Lautsprechers erfasst.

3. Clustering & Beschriftung

Einbettungen werden zu Gruppensegmenten aus demselben Lautsprecher zusammen geclustert, dann wird jedem Cluster ein Label zugewiesen (Sprecher 1, Speaker 2, etc.).

Anwendungsfälle für Lautsprechererkennung

Transkription treffen
Beschriften Sie automatisch jeden Teilnehmer an Meeting-Aufnahmen. Generieren Sie Minuten mit klarer Zuordnung von wem was gesagt hat.
Podcast-Transkription
Unterscheiden Sie zwischen Gastgeber und Gäste in Podcast-Episoden. Erstellen Sie Shownotizen mit richtigen Lautsprecherzuweisung.
Transkription des Interviews
Getrennte Interviewer- und Interviewee-Antworten für Forschung, Journalismus und Einstellungsdokumentation.
Recht & Einhaltung
Erstellen Sie offizielle Aufzeichnungen über Aussagen, Anhörungen und Compliance-Anrufe mit klarer Lautsprecheridentifikation.

Speaker-Erkennung auf STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Testen Sie jetzt Lautsprechererkennung

Laden Sie eine Multi-Lautsprecher-Aufnahme hoch und sehen Sie Lautsprecher automatisch beschriftet.

Transkribieren kostenlos starten

Häufig gestellte Fragen

Laden Sie Ihre Audio- oder Videodatei auf STT.ai hoch, wählen Sie das KI-Modell und klicken Sie auf Transkribieren. Export als TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja! STT.ai bietet 600 Freiminuten pro Monat. Keine Anmeldung erforderlich. Bezahlpläne ab $5/Monat.

Die Genauigkeit hängt vom KI-Modell und der Audioqualität ab. Unsere besten Modelle erreichen 93-95%+ Genauigkeit.

STT.ai bietet 10+ Modelle einschließlich Whisper Large V3, NVIDIA Canary und mehr. Sie können die Ergebnisse von verschiedenen Modellen auf der gleichen Datei vergleichen.

Ja. Exportieren Sie nach der Transkription Ihr Transkript als SRT- oder VTT-Untertiteldateien. Diese funktionieren mit YouTube, Vimeo und allen wichtigen Videoplattformen.

Ja. STT.ai erkennt und etikettiert automatisch verschiedene Lautsprecher mit KI-Lautsprecher-Diarisierung. Funktioniert über alle Modelle und Sprachen.

Die meisten Dateien werden in weniger als 5 Minuten transkribiert. Eine 1-stündige Audiodatei dauert typischerweise 2-3 Minuten mit unseren schnellsten Modellen.

STT.ai unterstützt 20+ Audio- und Videoformate einschließlich MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM und AVI. Exportieren als TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja. Audiodateien werden nach der Transkription verarbeitet und gelöscht. Ihre Daten werden nie zum Training verwendet. Client-seitige Verschlüsselung ist kostenlos für alle Pläne — es verschlüsselt gespeicherte Transkripte mit einem Schlüssel, den Sie haben. Während der Verarbeitung verarbeitet der Server Ihre Audio im Klartext. Über unsere Sicherheit.

Ja. STT.ai bietet eine REST API mit Python und Node.js SDKs. Kostenlose Stufe enthält 100 Minuten/Monat.

Ja. STT.ai enthält einen integrierten Transkript-Editor, in dem Sie Fehler korrigieren, Lautsprecher umbenennen und Zeitstempel anpassen können.

Jedes Transkript erhält einen einzigartigen Shareable Link. Exportieren Sie nach DOCX oder PDF für E-Mail. Pro Pläne bieten passwortgeschützte und dauerhafte Links.

STT.ai unterstützt 1.300+ Plattformen wie YouTube, Vimeo, TikTok, SoundCloud und mehr. URL-Transkription funktioniert nur mit öffentlich zugänglichem Audio und Video. DRM-geschützte Inhalte (wie Spotify Premium-Episoden, Netflix, Disney+, etc.) können nicht transkribiert werden. Für DRM-Inhalte können Sie die Datei separat herunterladen und direkt hochladen.