Speakererkennung & Diarisierung

Automatische Identifizierung und Kennzeichnung verschiedener Lautsprecher in Ihren Audio- und Video-Transkriptionen. Wissen Sie genau, wer was gesagt hat.

Wie es funktioniert →
Client-seitige Verschlüsselung an — Ihr Transkript wird in Ihrem Browser verschlüsselt, bevor Sie gespeichert werden. Der Server verarbeitet Ihre Audio für die Transkription, dann wird das Ergebnis lokal mit Ihrem Schlüssel verschlüsselt, bevor Sie speichern. (Alle Daten werden im Transit immer über HTTPS verschlüsselt.)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
Drop-Datei hier oder klicken Sie zum Durchsuchen
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — bis zu 2 GB
Aufzeichnung: 0:00
In Echtzeit Vosk (instant)
Verstärkt Flüstern (genau)
Öffentliche Links: 24h, nur Text · Melden Sie sich an für 7d + Audio · Pro für private Links

Echtzeit-Sprache zu Text. AI-Auto-Korrekturen, wie Sie sprechen – Genauigkeit verbessert sich mit längeren Sprache.

Testen Sie zuerst Ihr Mikrofon
❤️ Liebe STT.ai? Erzählen Sie Ihren Freunden!
Du hast deine freien Transkriptionen benutzt.

Melden Sie sich kostenlos an, um 600 Minuten/Monat zu erhalten, oder aktualisieren Sie für unbegrenzte Transkriptionen.

10 kostenlos min/Tag 600 min frei mit Anmeldung Keine Kreditkarte Verschlüsselt
Melde dich kostenlos an →

Was ist Speaker Diarization?

Speaker-Diarisierung ist der Prozess der Partitionierung eines Audio-Streams in Segmente nach der Identität des Sprechers. Einfacher gesagt, beantwortet es die Frage "Wer sprach wann?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Wie Lautsprechererkennung funktioniert

1. Sprachaktivitätserkennung

Das System identifiziert zunächst, welche Audiosegmente Sprache gegen Stille, Musik oder Hintergrundgeräusche enthalten.

2. Sprecher Einbetten

Jedes Sprachsegment wird in eine Lautsprechereinbettung umgewandelt -- ein kompakter Vektor, der die einzigartigen vokalen Eigenschaften des Lautsprechers erfasst.

3. Clustering & Beschriftung

Einbettungen werden zu Gruppensegmenten aus demselben Lautsprecher zusammen geclustert, dann wird jedem Cluster ein Label zugewiesen (Sprecher 1, Speaker 2, etc.).

Anwendungsfälle für Lautsprechererkennung

Transkription treffen
Beschriften Sie automatisch jeden Teilnehmer an Meeting-Aufnahmen. Generieren Sie Minuten mit klarer Zuordnung von wem was gesagt hat.
Podcast-Transkription
Unterscheiden Sie zwischen Gastgeber und Gäste in Podcast-Episoden. Erstellen Sie Shownotizen mit richtigen Lautsprecherzuweisung.
Transkription des Interviews
Getrennte Interviewer- und Interviewee-Antworten für Forschung, Journalismus und Einstellungsdokumentation.
Recht & Einhaltung
Erstellen Sie offizielle Aufzeichnungen über Aussagen, Anhörungen und Compliance-Anrufe mit klarer Lautsprecheridentifikation.

Speaker-Erkennung auf STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Testen Sie jetzt Lautsprechererkennung

Laden Sie eine Multi-Lautsprecher-Aufnahme hoch und sehen Sie Lautsprecher automatisch beschriftet.

Transkribieren kostenlos starten

Häufig gestellte Fragen

Laden Sie Ihre Audio- oder Videodatei auf STT.ai hoch, wählen Sie das KI-Modell und klicken Sie auf Transkribieren. Export als TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja! STT.ai bietet 600 Freiminuten pro Monat. Keine Anmeldung erforderlich. Bezahlpläne ab $5/Monat.

Die Genauigkeit hängt vom KI-Modell und der Audioqualität ab. Unsere besten Modelle erreichen 93-95%+ Genauigkeit.

STT.ai bietet 10+ Modelle einschließlich Whisper Large V3, NVIDIA Canary und mehr. Sie können die Ergebnisse von verschiedenen Modellen auf der gleichen Datei vergleichen.

Ja. Exportieren Sie nach der Transkription Ihr Transkript als SRT- oder VTT-Untertiteldateien. Diese funktionieren mit YouTube, Vimeo und allen wichtigen Videoplattformen.

Ja. STT.ai erkennt und etikettiert automatisch verschiedene Lautsprecher mit KI-Lautsprecher-Diarisierung. Funktioniert über alle Modelle und Sprachen.

Die meisten Dateien werden in weniger als 5 Minuten transkribiert. Eine 1-stündige Audiodatei dauert typischerweise 2-3 Minuten mit unseren schnellsten Modellen.

STT.ai unterstützt 20+ Audio- und Videoformate einschließlich MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM und AVI. Exportieren als TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja. Audiodateien werden nach der Transkription verarbeitet und gelöscht. Ihre Daten werden nie zum Training verwendet. Client-seitige Verschlüsselung ist kostenlos für alle Pläne — es verschlüsselt gespeicherte Transkripte mit einem Schlüssel, den Sie haben. Während der Verarbeitung verarbeitet der Server Ihre Audio im Klartext. Über unsere Sicherheit.

Ja. STT.ai bietet eine REST API mit Python und Node.js SDKs. Kostenlose Stufe enthält 100 Minuten/Monat.

Ja. STT.ai enthält einen integrierten Transkript-Editor, in dem Sie Fehler korrigieren, Lautsprecher umbenennen und Zeitstempel anpassen können.

Jedes Transkript erhält einen einzigartigen Shareable Link. Exportieren Sie nach DOCX oder PDF für E-Mail. Pro Pläne bieten passwortgeschützte und dauerhafte Links.