Transkribieren mit NVIDIA Parakeet
3.0%
WER
1
Languages
55.0x
Speed
CC-BY-4.0
License
Über NVIDIA Parakeet
NVIDIA Parakeet TDT 1.1B is a state-of-the-art English ASR model using FastConformer architecture with Token-and-Duration Transducer (TDT). It achieves near-human accuracy on standard English benchmarks and is highly optimized for NVIDIA GPUs.
Unterstützte Sprachen von NVIDIA Parakeet
Model Info
- ProviderNVIDIA
- Architecture-
- LicenseCC-BY-4.0
- UpdatedMar 2026
Häufig gestellte Fragen
NVIDIA Parakeet ist ein Sprach-zu-Text-Modell von NVIDIA. STT.ai Hosts NVIDIA Parakeet auf unserer GPU-Infrastruktur, so dass Sie es ohne Bereitstellung Ihrer eigenen Hardware nutzen können – laden Sie Audio oder Video hoch und wählen Sie NVIDIA Parakeet vom Modellpicker.
Auf Standard-Benchmarks erreicht NVIDIA Parakeet rund 3.0% Word Error Rate. Real-Welt-Genauigkeit hängt von Audio-Qualität, Akzent und Sprache; für laute oder akzentuierte Aufnahmen, erwarten ein paar Prozentpunkte höher WER.
NVIDIA Parakeet läuft auf STT.ai's Free-Tier - jeder Besucher erhält 600 Minuten/Monat ohne Kosten. Bezahlte Pläne fügen mehr pro-Datei Grenzen, private Transkripte, und Priorität Warteschlange.
NVIDIA Parakeet wird unter CC-BY-4.0 veröffentlicht, einer permissiven Open-Source-Lizenz. Sie können NVIDIA Parakeet auf Ihrer eigenen Hardware selbst hosten oder unsere gehostete Version verwenden – beide sind kommerziell nutzbar.
NVIDIA Parakeet unterstützt 1 Sprachen. Auto-Erkennung wählt die richtige Sprache für die meisten Audio-; Sie können es auch manuell für einen kleinen Genauigkeitsheber angeben.
NVIDIA Parakeet verarbeitet Audio bei ca. 55.0x Echtzeit auf unseren GPUs. Eine 1-stündige Audiodatei endet in weniger als 1 Minuten; längere Dateien stehen Schlange und benachrichtigen per E-Mail, wenn getan.
NVIDIA Parakeet hat 1.1B Parameter. Größere Modelle neigen dazu, genauer, aber langsamer zu sein; STT.ai Hosts NVIDIA Parakeet auf GPU, so dass die Parameteranzahl Ihre clientseitige Leistung nicht beeinflusst.
NVIDIA Parakeet akzeptiert jedes Format STT.ai unterstützt — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI und andere. Ausgabe als TXT, SRT, VTT, DOCX, JSON oder PDF.
Ja. Die Lautsprecherdiarisierung läuft bei jeder Transkription neben NVIDIA Parakeet – jeder Lautsprecher ist beschriftet und Sie können sie anschließend im Editor umbenennen.
Ja. NVIDIA Parakeet läuft in unserer verwalteten Umgebung – Audio wird standardmäßig verarbeitet und gelöscht und nie ohne explizites Opt-In zum Training verwendet. Pro-Pläne fügen Client-seitige Verschlüsselung für Transkripte in Ruhe hinzu.
Verwenden Sie das Vergleichs-stt-Tool, um NVIDIA Parakeet gegen jedes andere unterstützte Modell auf dem gleichen Audio laufen zu lassen – Sie sehen WER, Segmentanzahl, Lautsprecheretiketten und Konfidenzwerte nebeneinander. Der NVIDIA Parakeet vs Whisper Large V3 Vergleich ist der am häufigsten ausgeführte.
Ja. Geben Sie "nvidia-parakeet" als Modellparameter auf dem Endpunkt /v1/transcribe an. Python und Node.js SDKs enthalten NVIDIA Parakeet Beispiele. Freie API-Ebene enthält 100 Minuten/Monat.
Ja. Da NVIDIA Parakeet CC-BY-4.0-lizenziert ist, können Sie es selbst hosten. STT.ai Open-Source-Seite listet die Projekt-Repo und Gewichte. Die meisten Produktionsteams verwenden unsere gehostete Version, um GPU Beschaffung, Modell-Swaps und Ops überspringen.