KI-Stimme Kloner
Klonen Sie jede Stimme aus einem kurzen Audioclip. Laden Sie 3-10 Sekunden Sprache, geben Sie Ihren Text, und erzeugen Sie Audio in der gleichen Stimme.
Clone: provide a 3–10s reference clip. Preset: pick from bundled multilingual voices.
Sprachreferenz-Audio hochladen
MP3, WAV, M4A, FLAC
VibeVoice presets cover English, German, French, Japanese, Korean, Polish, Portuguese, Spanish, Italian, Dutch.
Maximal 500 Zeichen
0/500
Verwendet 1 Gutschrift pro Generation
Erzeugtes Audio
This audio is AI-generated. The downloaded WAV file embeds a machine-readable disclosure (RIFF INFO chunk) per EU AI Act Article 50. Do not present this audio as a recording of a real person without consent.
AI policy
Wie es funktioniert
1
Referenz hochladen
Geben Sie 3-10 Sekunden klare Sprache von der Stimme, die Sie klonen möchten.
2
KI analysiert Stimme
F5-TTS extrahiert Spracheigenschaften: Ton, Tonhöhe, Sprechstil, Akzent.
3
Sprache generieren
Ihr Text wird in der geklonten Stimme gesprochen. Laden Sie das Ergebnis als WAV herunter.
Das Klonen von Stimmen ist nur für den persönlichen und autorisierten Gebrauch. Klonen Sie keine Stimmen ohne Zustimmung des Sprechers.
Häufig gestellte Fragen
Laden Sie Ihre Audio- oder Videodatei auf STT.ai hoch, fügen Sie eine URL ein oder nehmen Sie live auf. Wählen Sie Ihr bevorzugtes AI-Modell aus und klicken Sie auf Transcribe. Die meisten Dateien sind in weniger als 5 Minuten fertig.
Ja — STT.ai gibt jedem Besucher 600 kostenlose Minuten / Monat ohne Anmeldung für Ihre erste Datei erforderlich. Bezahlte Pläne ab $ 5 / Monat entsperren Sie längere Dateien, private Transkripte und Priorität Warteschlange.
Die Genauigkeit hängt vom Modell und der Audioqualität ab. Unsere besten Modelle erreichen eine 3-5% Word Error Rate auf Benchmarks — 95-97% Genauigkeit auf saubere Sprache. Mit dem Vergleichs-stt Tool können Sie mehrere Modelle auf der gleichen Datei ausführen und die beste auswählen.
STT.ai bietet 10+ Modelle — STT.ai Verbessert (unsere genaueste), Whisper Large V3 (99 Sprachen), NVIDIA Canary (#1 WER auf unterstützten langs), Whisper Turbo (schnell), Moonshine (leichtes Gewicht) und mehr. Jede Modellseite hat Details.
Ja. Exportieren Sie Ihr Transkript als SRT- oder VTT-Untertitel-Dateien — sie arbeiten mit YouTube, Vimeo, TikTok, VLC und jedem großen Videoplayer. Das Burn-Untertitel-Tool überlagert sie als Hardsubs auf Video.
Ja. Lautsprecher-Diarisierung markiert automatisch jede Stimme (Sprecher 1, Lautsprecher 2,...) und Sie können sie im Editor umbenennen. Funktioniert über alle Modelle und Sprachen.
Die meisten Dateien werden in weniger als 5 Minuten transkribiert. Eine 1-stündige Audiodatei endet in der Regel in 2-3 Minuten mit unseren schnellsten Modellen. Geschwindigkeit hängt von der Modellwahl und der aktuellen Last ab.
STT.ai unterstützt 20+ Eingabeformate — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI und andere. Ausgabe auf TXT, SRT, VTT, DOCX, JSON und PDF.
Ja. Audiodateien werden standardmäßig verarbeitet und gelöscht. Pro-Pläne fügen clientseitige Verschlüsselung hinzu – auch wenn unsere Datenbank durchbrochen wird, sind Ihre Transkripte ohne Ihren Schlüssel unlesbar. Daten werden nie ohne explizites Opt-In für Modelltraining verwendet.
Ja. STT.ai bietet eine REST API mit Python und Node.js SDKs sowie einen MCP-Server für Claude und Cursor. Kostenlose API-Ebene enthält 100 Minuten/Monat.
Ja. Jedes Transkript öffnet sich in unserem integrierten Editor, wo Sie Wörter korrigieren, Lautsprecher umbenennen, Zeitstempel anpassen und Notizen hinzufügen können. Alle Änderungen speichern automatisch.
Jedes Transkript erhält eine einzigartige freigebende URL. Exportieren Sie nach DOCX oder PDF für E-Mail. Pro Pläne fügen passwortgeschützte und dauerhafte Links hinzu — nützlich für die Client-Arbeit.
STT.ai unterstützt 1.300+ Plattformen einschließlich YouTube, Vimeo, TikTok, SoundCloud und mehr. URL-Transkription funktioniert nur mit öffentlich zugänglichen Inhalten — DRM-geschützte Quellen können nicht transkribiert werden.