Fehler melden / Feature-Anforderung

Beschriftung mit Whisper Large V3

Name: Whisper Large V3
Author: OpenAI

Funktioniert mit öffentlich zugänglichem Audio & Video. DRM-geschützte Inhalte werden nicht unterstützt.

Upgrade für Verbesserte

Privater Abschriften

Chatten Sie mit Transkript

Entsperren mit Pro →

Drop-Datei hier oder klicken Sie zum Durchsuchen

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — bis zu 2 GB

Batch lädt mehrere Dateien hoch mit Pro

Upgrade für Verbesserte

Privater Abschriften

Chatten Sie mit Transkript

Entsperren mit Pro →

Upgrade für Verbesserte

Echtzeit-Sprache zu Text. AI-Auto-Korrekturen, wie Sie sprechen – Genauigkeit verbessert sich mit längeren Sprache.

Testen Sie zuerst Ihr Mikrofon

10 kostenlos min/Tag 600 min frei mit Anmeldung Keine Kreditkarte Verschlüsselt

Melde dich kostenlos an →

4.2%

WER

Sprachen

8.0x

Geschwindigkeit

MIT

Lizenz

Über Whisper Large V3

Whisper Large V3 ist das Flaggschiff Open-Source-Spracherkennungsmodell von OpenAI. Mit 1,55 Milliarden Parametern bietet es außergewöhnliche Genauigkeit in 99 Sprachen. Es verwendet eine auf 680.000 Stunden mehrsprachige Audiodaten geschulte Transformatoren-Encoder-Architektur.

Sprachen unterstützt von Whisper Large V3

Englisch

Spanisch

Französisch

Deutsch

Chinesisch

Japanisch

Koreanisch

Portugiesisch

Arabisch

Hindi

Russisch

Italienisch

Niederländisch

Türkisch

Polnisch

Schwedisch

Indonesisch

Thailändisch

Vietnamesisch

Tschechisch

Griechisch

Rumänisch

Ungarisch

Hebräisch

Dänisch

Finnisch

Norwegisch

Ukrainisch

Malaiisch

Bengalisch

Modellinformation

AnbieterOpenAI
Architektur-
LizenzMIT
AktualisiertMar 2026

Häufig gestellte Fragen

Whisper Large V3 ist ein Sprach-zu-Text-Modell von OpenAI. STT.ai Hosts Whisper Large V3 auf unserer GPU-Infrastruktur, so dass Sie es ohne Bereitstellung Ihrer eigenen Hardware nutzen können – laden Sie Audio oder Video hoch und wählen Sie Whisper Large V3 vom Modellpicker.

Auf Standard-Benchmarks erreicht Whisper Large V3 rund 4.2% Word Error Rate. Real-Welt-Genauigkeit hängt von Audio-Qualität, Akzent und Sprache; für laute oder akzentuierte Aufnahmen, erwarten ein paar Prozentpunkte höher WER.

Whisper Large V3 läuft auf STT.ais freier Ebene – jeder Besucher erhält 600 Minuten, um kostenlos zu starten. Bezahlte Pläne fügen längere pro-Datei-Grenzen, private Transkripte und Priorität Warteschlange hinzu.

Whisper Large V3 wird unter MIT veröffentlicht, einer permissiven Open-Source-Lizenz. Sie können Whisper Large V3 auf Ihrer eigenen Hardware selbst hosten oder unsere gehostete Version verwenden – beide sind kommerziell nutzbar.

Whisper Large V3 unterstützt 99 Sprachen. Auto-Erkennung wählt die richtige Sprache für die meisten Audio-; Sie können es auch manuell für einen kleinen Genauigkeitsheber angeben.

Whisper Large V3 verarbeitet Audio bei ca. 8.0x Echtzeit auf unseren GPUs. Eine 1-stündige Audiodatei endet in weniger als 7 Minuten; längere Dateien stehen Schlange und benachrichtigen per E-Mail, wenn getan.

Whisper Large V3 hat 1.55B Parameter. Größere Modelle neigen dazu, genauer, aber langsamer zu sein; STT.ai Hosts Whisper Large V3 auf GPU, so dass die Parameteranzahl Ihre clientseitige Leistung nicht beeinflusst.

Whisper Large V3 akzeptiert jedes Format STT.ai unterstützt — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI und andere. Ausgabe als TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja. Die Lautsprecherdiarisierung läuft bei jeder Transkription neben Whisper Large V3 – jeder Lautsprecher ist beschriftet und Sie können sie anschließend im Editor umbenennen.

Ja. Whisper Large V3 läuft in unserer verwalteten Umgebung – Audio wird standardmäßig verarbeitet und gelöscht und nie ohne explizites Opt-In zum Training verwendet. Pro-Pläne fügen Client-seitige Verschlüsselung für Transkripte in Ruhe hinzu.

Verwenden Sie das Vergleichs-stt-Tool, um Whisper Large V3 gegen jedes andere unterstützte Modell auf dem gleichen Audio laufen zu lassen – Sie sehen WER, Segmentanzahl, Lautsprecheretiketten und Konfidenzwerte nebeneinander. Der Whisper Large V3 vs Whisper Large V3 Vergleich ist der am häufigsten ausgeführte.

Ja. Geben Sie "whisper-large-v3" als Modellparameter auf dem Endpunkt /v1/transcribe an. Python und Node.js SDKs enthalten Whisper Large V3 Beispiele. Freie API-Ebene enthält 100 Minuten/Monat.

Ja. Da Whisper Large V3 MIT-lizenziert ist, können Sie es selbst hosten. STT.ai Open-Source-Seite listet die Projekt-Repo und Gewichte. Die meisten Produktionsteams verwenden unsere gehostete Version, um GPU Beschaffung, Modell-Swaps und Ops überspringen.

Beschriftung mit Whisper Large V3

Über Whisper Large V3

Sprachen unterstützt von Whisper Large V3

Modellinformation

Verwandte Modelle

Häufig gestellte Fragen

Was ist Whisper Large V3?

Wie genau ist Whisper Large V3?

Ist Whisper Large V3 frei zu benutzen?

Welche Lizenz verwendet Whisper Large V3?

Wie viele Sprachen unterstützen Whisper Large V3?

Wie schnell sind Whisper Large V3?

Wie groß ist das Whisper Large V3-Modell?

Welche Audioformate können Whisper Large V3 transkribieren?

Erkennt Whisper Large V3 mehrere Lautsprecher?

Sind meine Daten privat, wenn Sie Whisper Large V3 verwenden?

Wie vergleicht Whisper Large V3 mit anderen STT-Modellen?

Kann ich Whisper Large V3 über die API verwenden?

Kann ich Whisper Large V3 auf meinem eigenen Server ausführen?