Clientseitig verschlüsselter Speicher — Ihre Transkripte werden in Ihrem Browser verschlüsselt. Auch wir können sie nicht lesen. Erfahren Sie, wie es funktioniert →

Von Fachleuten weltweit vertraut

Podcaster Journalisten Forscher Schüler Juristische Teams Medizinische Pros

Rede zu Textmodellen

Wählen Sie die beste Engine für Ihre Audio

Alle Modelle anzeigen →

Wie funktioniert STT.ai?

Drei Schritte zur genauen Transkription

1. URL hochladen, aufzeichnen oder einfügen

Ziehen Sie alle Audio- oder Videodateien (MP3, WAV, MP4 und 20+ Formate) aus Ihrem Mikrofon in Echtzeit auf. Oder fügen Sie einen Link von YouTube, Vimeo, TikTok und 1.300+ Plattformen ein.

2. KI transkribiert mit Ihrer Wahl des Modells

Wählen Sie aus 10 + KI-Modelle einschließlich Whisper, NVIDIA Canary (#1 Genauigkeit) und Moonshine. Auto-Detektion Sprache aus 100 + Optionen. Lautsprecherdiarisierung identifiziert, wer was gesagt hat.

3. Exportieren, Teilen oder Integrieren

Downloaden Sie als TXT, SRT, VTT, DOCX, JSON oder PDF. Über den Link teilen. Nutzen Sie unsere API, um Transkription in Ihre App zu integrieren. Perfekt für Untertitel, Besprechungsnotizen, Podcasts und mehr.

Populäre Anwendungsfälle

Alle Anwendungsfälle →

Sitzungen

Sitzungsnotizen & Aktionspunkte

Podcasts

Texte & Notizen anzeigen

Untertitel

SRT, VTT & mehr

Medizinisch

Sichere Transkription

Vorträge

Klassennotizen und Studienleitfäden

Rechtsvorschriften

Depositen & Gericht

Alles, was Sie für Audio & Video benötigen

70+ kostenlose Werkzeuge mit KI

Rede zum Text

Audio- und Videodateien übertragen

Live-Transkription

Echtzeit-Mikrofontranskription

YouTube-Transkriptionen

Bildunterschriften aus jedem Video extrahieren

Untertiteleditor

SRT & VTT-Dateien online bearbeiten

Geräuschentferner

Hintergrundgeräusche aus Audio entfernen

Audio-Konverter

MP3, WAV, FLAC, OGG, AAC & mehr

Vocal Remover

Vocals isolieren oder entfernen

Audio-Trimmer

Audiodateien ausschneiden und trimmen

Bildunterschrifts-Konverter

SRT-, VTT-, SSA-, SBV-Formate

Sitzungsprotokoll

Aktionspunkte & Zusammenfassungen extrahieren

Text in die Rede

Text in natürliche Sprache konvertieren

Untertitel Übersetzer

Untertitel in 100+ Sprachen übersetzen

Alle 70+ Werkzeuge anzeigen →

100+

Unterstützte Sprachen

70+

Kostenlose Werkzeuge

1,300+

Unterstützte Plattformen

Formate exportieren

Entwickler-Erste API

Integrieren Sie in wenigen Minuten Sprach-zu-Text in Ihre App. RESTful API mit Echtzeit-WebSocket-Streaming.

REST + WebSocket — Datei-Upload und Echtzeit-Streaming

Mehrere Modelle — Whisper, Canary, Enhanced & more

Wahl des Sprechers — Auto-Erkennen, wer was gesagt hat

Flexible Leistung — JSON, TXT, SRT, VTT mit Wortzeitstempeln

API Docs Spielplatz

import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

import fs from "fs";

const form = new FormData();
form.append("file", fs.createReadStream("meeting.mp3"));
form.append("model", "large-v3-turbo");
form.append("language", "auto");
form.append("diarize", "true");

const res = await fetch("https://api.stt.ai/v1/transcribe", {
  method: "POST",
  headers: { Authorization: `Bearer ${API_KEY}` },
  body: form,
});

const { segments } = await res.json();
segments.forEach(s =>
  console.log(`${s.speaker}: ${s.text}`)
);

Wechseln von einer anderen Rede zu einem Textdienst?

STT.ai vs Otter.ai STT.ai vs TurboScribe STT.ai vs Fireflies STT.ai vs Rev Alle vergleichen →

Einfache, transparente Preisgestaltung

Starten Sie frei, skalieren Sie, wie Sie wachsen.

Frei

$0/m

600 min/Monat

5 Sprachen
TXT & SRT-Export
API-Zugriff

Starter

$9/m

3,000 min/Monat

100+ Sprachen
Alle KI-Modelle
Alle Exportformate

MÖGLICHSTEN POPULAR

Pro

$19/m

7.500 min/Monat

Private Transkripte
Unbegrenzte Mannschaftssitze
Vorrangige Verarbeitung

Unternehmen

$39/m

20 000 min/Monat

Alles in Pro
Lagerung von 50K min
Unbegrenzter AI-Chat

Alle Pläne & Preise anzeigen →

Unterstützte Sprachen

Alle 100+ Sprachen →

English Spanish French German Japanese Chinese Arabic Hindi Portuguese Russian Korean Italian Turkish Dutch Polish +85 mehr

Bereit zum Transkribieren?

Laden Sie Ihre erste Datei kostenlos. Keine Kreditkarte, keine Anmeldung. 600 Minuten pro Monat auf dem kostenlosen Plan.

Transkribieren starten

Häufig gestellte Fragen

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.

Freie KI Rede zum Text

Rede zu Textmodellen

Wie funktioniert STT.ai?

1. URL hochladen, aufzeichnen oder einfügen

2. KI transkribiert mit Ihrer Wahl des Modells

3. Exportieren, Teilen oder Integrieren

Populäre Anwendungsfälle

Alles, was Sie für Audio & Video benötigen

Entwickler-Erste API

Einfache, transparente Preisgestaltung

Unterstützte Sprachen

Bereit zum Transkribieren?

Häufig gestellte Fragen

How does speech to text work on STT.ai?

Is speech to text free?

How accurate is speech to text?

What AI models can I use for speech to text?

Can I get subtitles from speech to text?

Does speech to text detect different speakers?

How long does speech to text take?

What input formats does speech to text support?

Is my audio private when I use speech to text?

Is there a speech to text API?

Can I edit a speech to text transcript after?

How do I share what speech to text produces?

What other platforms work beyond speech to text?