Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Cwestiynau a Ofynnir yn Aml
Model siarad-i-testun gan Alpha Cephei yw Vosk. Mae STT.ai yn gwestiwn Vosk ar ein strwythur GPU felly gallwch ei ddefnyddio heb ddarparu eich caledwedd eich hun - lawrlwythwch sain neu fideo a dewiswch Vosk o'r dewisydd model.
Ar fesurau safonol, mae Vosk yn cyrraedd Cyfradd Gwallau Geiriau o tua 12.0%. Mae cywirdeb yn y byd go iawn yn dibynnu ar ansawdd sain, sain a iaith; ar gyfer recordiadau swnllyd neu sainedig, disgwyliwch ychydig o bwyntiau canran uwch WER.
Mae Vosk yn rhedeg ar lefel rhad ac am ddim STT.ai — mae pob ymwelydd yn cael 600 munud/mis am ddim. Mae cynlluniau talu yn ychwanegu terfynau mwy hir ar gyfer pob ffeil, trosysgrifau preifat, a rhedeg mewn rhes flaenoriaeth.
Cyhoeddir Vosk o dan Apache 2.0, trwydded ffynhonnell agored ganiataol. Gallwch hunan-gartrefu Vosk ar eich caledwedd eich hun neu ddefnyddio ein fersiwn cartrefiedig — mae'r ddau yn defnyddiol yn fasnachol.
Cynhelir Vosk iaith 20. Mae darganfod yn awtomatig yn dewis yr iaith gywir ar gyfer y rhan fwyaf o sain; gallwch hefyd ei benodi â llaw er mwyn gwella cywirdeb ychydig.
Mae Vosk yn prosesu sain ar tua 100.0x amser real ar ein GPUs. Mae ffeil sain 1 awr yn gorffen mewn llai na 1 munud; mae ffeiliau hirach yn rhedeg yn y rhes a chaiff eu hysbysu drwy e-bost pan fyddant wedi gorffen.
Mae gan Vosk baramedrau 50M. Mae modelau mwy yn tueddu i fod yn fwy cywir ond yn araf; mae STT.ai yn gwestiwn Vosk ar y GPU felly nid yw'r cyfrif paramedrau yn effeithio ar eich perfformiad ochr y cleient.
Mae Vosk yn derbyn pob fformat a gynhelir gan STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, ac eraill. Allbwn fel TXT, SRT, VTT, DOCX, JSON, neu PDF.
Ie. Rheda diareiddio siaradwyr gyda Vosk ar gyfer pob trosysgrifiad - mae pob siaradwr yn cael ei labelu a gallwch eu hail-enwi yn y golygydd yna.
Ydy. Mae Vosk yn rhedeg yn ein hamgylchedd rheoli — mae sain yn cael ei brosesu a'i ddileu yn rhagosodedig ac ni chaiff ei ddefnyddio erioed ar gyfer hyfforddiant heb optio i mewn yn glir. Mae cynlluniau Pro yn ychwanegu amgryptio ochr y cleient ar gyfer trosysgrifau wrth aros.
Defnyddiwch yr erfyn compare-stt i redeg Vosk yn erbyn unrhyw ddull arall a gynhelir ar yr un sain — byddwch yn gweld WER, cyfrif segmentau, labeli siaradwyr, a sgôr ymddiriedaeth ochr yn ochr. Y cymhariaeth Vosk vs Whisper Large V3 yw'r un fwyaf cyffredin.
Ie. Penodi "vosk" fel paramedr model ar y /v1/transcribe diwedd-bwynt. Mae Python a Node.js SDKs yn cynnwys enghreifftiau Vosk. Mae lefel API am ddim yn cynnwys 100 munud/mis.
Ie. Gan fod Vosk yn cael ei drwyddedu gan Apache 2.0, gallwch ei hunan-gartrefu. Mae tudalen ffynhonnell agored STT.ai yn rhestru'r storfa a'r pwysau. Mae'r rhan fwyaf o'r timau cynhyrchu yn defnyddio ein fersiwn cartrefi i hepgor prynu GPU, cyfnewid modelau, ac ops.