Trascrivi con NVIDIA Parakeet
3.0%
WER
1
Languages
55.0x
Speed
CC-BY-4.0
License
Informazioni su NVIDIA Parakeet
NVIDIA Parakeet TDT 1.1B is a state-of-the-art English ASR model using FastConformer architecture with Token-and-Duration Transducer (TDT). It achieves near-human accuracy on standard English benchmarks and is highly optimized for NVIDIA GPUs.
Lingue supportate da NVIDIA Parakeet
Model Info
- ProviderNVIDIA
- Architecture-
- LicenseCC-BY-4.0
- UpdatedMar 2026
Domande frequenti
NVIDIA Parakeet è un modello speech-to-text di NVIDIA. STT.ai ospita NVIDIA Parakeet sulla nostra infrastruttura GPU in modo da poterlo utilizzare senza fornire il proprio hardware Hoppenstedt caricare audio o video e scegliere NVIDIA Parakeet dal picker modello.
Sui benchmark standard, NVIDIA Parakeet raggiunge circa 3.0% Word Error Rate. L'accuratezza del mondo reale dipende dalla qualità audio, dall'accento e dal linguaggio; per le registrazioni rumorose o accentuate, aspettatevi qualche punto percentuale più alto WER.
NVIDIA Parakeet funziona su STT.ai di livello libero ogni visitatore ottiene 600 minuti al mese senza alcun costo. piani a pagamento aggiungere limiti più lunghi per file, trascrizioni private, e la coda di priorità.
NVIDIA Parakeet è rilasciato sotto CC-BY-4.0, una licenza open-source permissiva. È possibile auto-host NVIDIA Parakeet sul proprio hardware o utilizzare la nostra versione hosted entrambi sono commercialmente utilizzabili.
NVIDIA Parakeet supporta 1 lingue. Rilevamento automatico sceglie la lingua giusta per la maggior parte dell'audio; è anche possibile specificarlo manualmente per un piccolo sollevamento di precisione.
NVIDIA Parakeet elabora audio a circa 55.0x in tempo reale sulle nostre GPU. Un file audio di 1 ora termina in meno di 1 minuti; file più lunghi coda e notifica per e-mail quando fatto.
NVIDIA Parakeet ha 1.1B parametri. I modelli più grandi tendono ad essere più precisi ma più lenti; STT.ai host NVIDIA Parakeet su GPU in modo che il conteggio dei parametri non influisca sulle prestazioni lato client.
NVIDIA Parakeet accetta ogni formato STT.ai supporta © MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, e altri. Uscita come TXT, SRT, VTT, DOCX, JSON, o PDF.
Sì. La diarizzazione degli altoparlanti corre accanto a NVIDIA Parakeet per ogni trascrizione ogni altoparlante è etichettato e si può rinominare in seguito nell'editor.
Sì. NVIDIA Parakeet è eseguito nel nostro ambiente gestito L'audio è elaborato e cancellato per impostazione predefinita e mai utilizzato per l'allenamento senza esplicito opt-in. Piani Pro aggiungere la crittografia lato client per le trascrizioni a riposo.
Utilizzare lo strumento di confronto-stt per eseguire NVIDIA Parakeet contro qualsiasi altro modello supportato sullo stesso audio. Vedrete WER, conteggio dei segmenti, etichette degli altoparlanti e punteggi di confidenza fianco a fianco. Il confronto NVIDIA Parakeet vs Whisper Large V3 è il più comunemente eseguito.
Sì. Specificare "nvidia-parakeet" come parametro del modello sull'endpoint /v1/transcribe. Gli SDK Python e Node.js includono NVIDIA Parakeet esempi. Il livello API gratuito include 100 minuti/mese.
Sì. Poiché NVIDIA Parakeet è CC-BY-4.0-licensed, si può auto-ospitare esso. STT.ai pagina open-source elenca il progetto repo e pesi. La maggior parte dei team di produzione utilizzano la nostra versione ospitata per saltare GPU approvvigionamento, modelli di swap, e op.