Trascrivi con Vosk

Funziona con audio e video pubblicamente disponibili. I contenuti protetti da DRM non sono supportati.

Aggiornamento per Enhanced
Private transcript
Parlare con la trascrizione
Sblocca con Pro →
Rilascia il file qui o fai clic per navigare
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM fino a 2GB
Aggiornamento per Enhanced
Private transcript
Parlare con la trascrizione
Sblocca con Pro →
Aggiornamento per Enhanced
Registrazione: 0:00
In tempo reale Vosk (istante)
Migliorato Sussurro (accurato)
Collegamenti pubblici: 24h, solo testo · Iscriviti per 7d + audio · Pro per collegamenti privati

Discorso in tempo reale al testo. AI auto-corregge mentre si parla di precisione di galattosio migliora con il discorso più lungo.

Prova prima il microfono
❤️ Love STT.ai? Dillo ai tuoi amici!
Hai usato le tue trascrizioni gratuite.

Iscriviti gratuitamente per ottenere 600 minuti al mese, o l'aggiornamento per trascrizioni illimitate.

10 minuti/giorno gratuiti 600 min gratis con iscrizione Nessuna carta di credito Cifrato
Iscriviti gratis →
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License

Informazioni su Vosk

Vosk is an offline speech recognition toolkit that works without an internet connection. It supports 20+ languages with compact models that can run on mobile devices, Raspberry Pi, and any platform. Built on Kaldi and Zipformer architectures.

Domande frequenti

Vosk è un modello speech-to-text di Alpha Cephei. STT.ai ospita Vosk sulla nostra infrastruttura GPU in modo da poterlo utilizzare senza fornire il proprio hardware Hoppenstedt caricare audio o video e scegliere Vosk dal picker modello.

Sui benchmark standard, Vosk raggiunge circa 12.0% Word Error Rate. L'accuratezza del mondo reale dipende dalla qualità audio, dall'accento e dal linguaggio; per le registrazioni rumorose o accentuate, aspettatevi qualche punto percentuale più alto WER.

Vosk funziona su STT.ai di livello libero ogni visitatore ottiene 600 minuti al mese senza alcun costo. piani a pagamento aggiungere limiti più lunghi per file, trascrizioni private, e la coda di priorità.

Vosk è rilasciato sotto Apache 2.0, una licenza open-source permissiva. È possibile auto-host Vosk sul proprio hardware o utilizzare la nostra versione hosted entrambi sono commercialmente utilizzabili.

Vosk supporta 20 lingue. Rilevamento automatico sceglie la lingua giusta per la maggior parte dell'audio; è anche possibile specificarlo manualmente per un piccolo sollevamento di precisione.

Vosk elabora audio a circa 100.0x in tempo reale sulle nostre GPU. Un file audio di 1 ora termina in meno di 1 minuti; file più lunghi coda e notifica per e-mail quando fatto.

Vosk ha 50M parametri. I modelli più grandi tendono ad essere più precisi ma più lenti; STT.ai host Vosk su GPU in modo che il conteggio dei parametri non influisca sulle prestazioni lato client.

Vosk accetta ogni formato STT.ai supporta © MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, e altri. Uscita come TXT, SRT, VTT, DOCX, JSON, o PDF.

Sì. La diarizzazione degli altoparlanti corre accanto a Vosk per ogni trascrizione ogni altoparlante è etichettato e si può rinominare in seguito nell'editor.

Sì. Vosk è eseguito nel nostro ambiente gestito L'audio è elaborato e cancellato per impostazione predefinita e mai utilizzato per l'allenamento senza esplicito opt-in. Piani Pro aggiungere la crittografia lato client per le trascrizioni a riposo.

Utilizzare lo strumento di confronto-stt per eseguire Vosk contro qualsiasi altro modello supportato sullo stesso audio. Vedrete WER, conteggio dei segmenti, etichette degli altoparlanti e punteggi di confidenza fianco a fianco. Il confronto Vosk vs Whisper Large V3 è il più comunemente eseguito.

Sì. Specificare "vosk" come parametro del modello sull'endpoint /v1/transcribe. Gli SDK Python e Node.js includono Vosk esempi. Il livello API gratuito include 100 minuti/mese.

Sì. Poiché Vosk è Apache 2.0-licensed, si può auto-ospitare esso. STT.ai pagina open-source elenca il progetto repo e pesi. La maggior parte dei team di produzione utilizzano la nostra versione ospitata per saltare GPU approvvigionamento, modelli di swap, e op.