Freie KI Rede zum Text

Transcribe audio & video to text in 100+ Sprachen. 10+ KI-Modelle. Lautsprechererkennung. Keine Anmeldung erforderlich.

9.2K
Transkriptionen
233.2K
Minuten transkribiert
100+
Sprachen
70+
Kostenlose Werkzeuge

Funktioniert mit öffentlich zugänglichem Audio & Video. DRM-geschützte Inhalte werden nicht unterstützt.

Upgrade für Verbesserte
Privater Abschrift
Chatten Sie mit Transkript
Entsperren mit Pro →
Drop-Datei hier oder klicken Sie zum Durchsuchen
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — bis zu 2 GB
Upgrade für Verbesserte
Privater Abschrift
Chatten Sie mit Transkript
Entsperren mit Pro →
Upgrade für Verbesserte
Aufzeichnung: 0:00
In Echtzeit Vosk (instant)
Verstärkt Flüstern (genau)
Öffentliche Links: 24h, nur Text · Melden Sie sich an für 7d + Audio · Pro für private Links

Echtzeit-Sprache zu Text. AI-Auto-Korrekturen, wie Sie sprechen – Genauigkeit verbessert sich mit längeren Sprache.

Testen Sie zuerst Ihr Mikrofon
❤️ Liebe STT.ai? Erzählen Sie Ihren Freunden!
Du hast deine freien Transkriptionen benutzt.

Melden Sie sich kostenlos an, um 600 Minuten/Monat zu erhalten, oder aktualisieren Sie für unbegrenzte Transkriptionen.

10 kostenlos min/Tag 600 min frei mit Anmeldung Keine Kreditkarte Verschlüsselt
Melde dich kostenlos an →
Clientseitig verschlüsselter Speicher — Ihre Transkripte werden in Ihrem Browser verschlüsselt. Auch wir können sie nicht lesen. Erfahren Sie, wie es funktioniert →

Wie funktioniert STT.ai?

Drei Schritte zur genauen Transkription

1. URL hochladen, aufzeichnen oder einfügen

Ziehen Sie alle Audio- oder Videodateien (MP3, WAV, MP4 und 20+ Formate) aus Ihrem Mikrofon in Echtzeit auf. Oder fügen Sie einen Link von YouTube, Vimeo, TikTok und 1.300+ Plattformen ein.

2. KI transkribiert mit Ihrer Wahl des Modells

Wählen Sie aus 10 + KI-Modelle einschließlich Whisper, NVIDIA Canary (#1 Genauigkeit) und Moonshine. Auto-Detektion Sprache aus 100 + Optionen. Lautsprecherdiarisierung identifiziert, wer was gesagt hat.

3. Exportieren, Teilen oder Integrieren

Downloaden Sie als TXT, SRT, VTT, DOCX, JSON oder PDF. Über den Link teilen. Nutzen Sie unsere API, um Transkription in Ihre App zu integrieren. Perfekt für Untertitel, Besprechungsnotizen, Podcasts und mehr.

100+
Unterstützte Sprachen
70+
Kostenlose Werkzeuge
1,300+
Unterstützte Plattformen
7
Formate exportieren

Entwickler-Erste API

Integrieren Sie in wenigen Minuten Sprach-zu-Text in Ihre App. RESTful API mit Echtzeit-WebSocket-Streaming.

REST + WebSocket — Datei-Upload und Echtzeit-Streaming
Mehrere Modelle — Whisper, Canary, Enhanced & more
Wahl des Sprechers — Auto-Erkennen, wer was gesagt hat
Flexible Leistung — JSON, TXT, SRT, VTT mit Wortzeitstempeln
import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

Bereit zum Transkribieren?

Laden Sie Ihre erste Datei kostenlos. Keine Kreditkarte, keine Anmeldung. 600 Minuten pro Monat auf dem kostenlosen Plan.

Transkribieren starten

Häufig gestellte Fragen

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.