Fehler melden / Feature-Anforderung

Beschriftung mit Vosk

Name: Vosk
Author: Alpha Cephei

Funktioniert mit öffentlich zugänglichem Audio & Video. DRM-geschützte Inhalte werden nicht unterstützt.

Upgrade für Verbesserte

Privater Abschriften

Chatten Sie mit Transkript

Entsperren mit Pro →

Drop-Datei hier oder klicken Sie zum Durchsuchen

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — bis zu 2 GB

Batch lädt mehrere Dateien hoch mit Pro

Upgrade für Verbesserte

Privater Abschriften

Chatten Sie mit Transkript

Entsperren mit Pro →

Upgrade für Verbesserte

Echtzeit-Sprache zu Text. AI-Auto-Korrekturen, wie Sie sprechen – Genauigkeit verbessert sich mit längeren Sprache.

Testen Sie zuerst Ihr Mikrofon

10 kostenlos min/Tag 600 min frei mit Anmeldung Keine Kreditkarte Verschlüsselt

Melde dich kostenlos an →

12.0%

WER

Sprachen

100.0x

Geschwindigkeit

Apache 2.0

Lizenz

Über Vosk

Vosk ist ein offline Spracherkennungs-Toolkit, das ohne Internetverbindung funktioniert. Es unterstützt 20+ Sprachen mit kompakten Modellen, die auf mobilen Geräten, Raspberry Pi und jeder Plattform laufen können. Auf Kaldi- und Zipformer-Architekturen gebaut.

Sprachen unterstützt von Vosk

Englisch

Spanisch

Französisch

Deutsch

Chinesisch

Japanisch

Koreanisch

Portugiesisch

Arabisch

Hindi

Russisch

Italienisch

Niederländisch

Türkisch

Polnisch

Schwedisch

Indonesisch

Vietnamesisch

Tschechisch

Griechisch

Modellinformation

AnbieterAlpha Cephei
Architektur-
LizenzApache 2.0
AktualisiertMar 2026

Häufig gestellte Fragen

Vosk ist ein Sprach-zu-Text-Modell von Alpha Cephei. STT.ai Hosts Vosk auf unserer GPU-Infrastruktur, so dass Sie es ohne Bereitstellung Ihrer eigenen Hardware nutzen können – laden Sie Audio oder Video hoch und wählen Sie Vosk vom Modellpicker.

Auf Standard-Benchmarks erreicht Vosk rund 12.0% Word Error Rate. Real-Welt-Genauigkeit hängt von Audio-Qualität, Akzent und Sprache; für laute oder akzentuierte Aufnahmen, erwarten ein paar Prozentpunkte höher WER.

Vosk läuft auf STT.ais freier Ebene – jeder Besucher erhält 600 Minuten, um kostenlos zu starten. Bezahlte Pläne fügen längere pro-Datei-Grenzen, private Transkripte und Priorität Warteschlange hinzu.

Vosk wird unter Apache 2.0 veröffentlicht, einer permissiven Open-Source-Lizenz. Sie können Vosk auf Ihrer eigenen Hardware selbst hosten oder unsere gehostete Version verwenden – beide sind kommerziell nutzbar.

Vosk unterstützt 20 Sprachen. Auto-Erkennung wählt die richtige Sprache für die meisten Audio-; Sie können es auch manuell für einen kleinen Genauigkeitsheber angeben.

Vosk verarbeitet Audio bei ca. 100.0x Echtzeit auf unseren GPUs. Eine 1-stündige Audiodatei endet in weniger als 1 Minuten; längere Dateien stehen Schlange und benachrichtigen per E-Mail, wenn getan.

Vosk hat 50M Parameter. Größere Modelle neigen dazu, genauer, aber langsamer zu sein; STT.ai Hosts Vosk auf GPU, so dass die Parameteranzahl Ihre clientseitige Leistung nicht beeinflusst.

Vosk akzeptiert jedes Format STT.ai unterstützt — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI und andere. Ausgabe als TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja. Die Lautsprecherdiarisierung läuft bei jeder Transkription neben Vosk – jeder Lautsprecher ist beschriftet und Sie können sie anschließend im Editor umbenennen.

Ja. Vosk läuft in unserer verwalteten Umgebung – Audio wird standardmäßig verarbeitet und gelöscht und nie ohne explizites Opt-In zum Training verwendet. Pro-Pläne fügen Client-seitige Verschlüsselung für Transkripte in Ruhe hinzu.

Verwenden Sie das Vergleichs-stt-Tool, um Vosk gegen jedes andere unterstützte Modell auf dem gleichen Audio laufen zu lassen – Sie sehen WER, Segmentanzahl, Lautsprecheretiketten und Konfidenzwerte nebeneinander. Der Vosk vs Whisper Large V3 Vergleich ist der am häufigsten ausgeführte.

Ja. Geben Sie "vosk" als Modellparameter auf dem Endpunkt /v1/transcribe an. Python und Node.js SDKs enthalten Vosk Beispiele. Freie API-Ebene enthält 100 Minuten/Monat.

Ja. Da Vosk Apache 2.0-lizenziert ist, können Sie es selbst hosten. STT.ai Open-Source-Seite listet die Projekt-Repo und Gewichte. Die meisten Produktionsteams verwenden unsere gehostete Version, um GPU Beschaffung, Modell-Swaps und Ops überspringen.

Beschriftung mit Vosk

Über Vosk

Sprachen unterstützt von Vosk

Modellinformation

Verwandte Modelle

Häufig gestellte Fragen

Was ist Vosk?

Wie genau ist Vosk?

Ist Vosk frei zu benutzen?

Welche Lizenz verwendet Vosk?

Wie viele Sprachen unterstützen Vosk?

Wie schnell sind Vosk?

Wie groß ist das Vosk-Modell?

Welche Audioformate können Vosk transkribieren?

Erkennt Vosk mehrere Lautsprecher?

Sind meine Daten privat, wenn Sie Vosk verwenden?

Wie vergleicht Vosk mit anderen STT-Modellen?

Kann ich Vosk über die API verwenden?

Kann ich Vosk auf meinem eigenen Server ausführen?