Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Συχνές Ερωτήσεις
Vosk είναι ένα μοντέλο ομιλίας προς κείμενο από Alpha Cephei. STT.ai φιλοξενεί Vosk για την υποδομή GPU μας, ώστε να μπορείτε να το χρησιμοποιήσετε χωρίς να παρέχει το δικό σας υλικό? Ανεβάστε τον ήχο ή το βίντεο και επιλέξτε Vosk από το μοντέλο picker.
Στα πρότυπα σημεία αναφοράς, Vosk επιτυγχάνει περίπου 12.0% Word Error Rate. Ακρίβεια σε πραγματικό κόσμο εξαρτάται από την ποιότητα ήχου, την προφορά, και τη γλώσσα? για θορυβώδη ή τονισμένη ηχογραφήσεις, αναμένουν μερικές ποσοστιαίες μονάδες υψηλότερη WER.
Vosk τρέχει με STT.ai δωρεάν βαθμίδα. Κάθε επισκέπτης παίρνει 600 λεπτά / μήνα χωρίς κόστος.
Vosk κυκλοφορεί κάτω από Apache 2.0, μια ανεκτική άδεια ανοικτού κώδικα. Μπορείτε να αυτο-φιλοξενήσετε Vosk στο δικό σας υλικό ή να χρησιμοποιήσετε μας φιλοξενείται έκδοση και τα δύο είναι εμπορικά χρησιμοποιήσιμα.
Vosk υποστηρίζει 20 γλώσσες. Auto-detection επιλέγει τη σωστή γλώσσα για τους περισσότερους ήχους? μπορείτε επίσης να το καθορίσετε χειροκίνητα για ένα μικρό ανελκυστήρα ακρίβειας.
Vosk διαδικασίες ήχου σε περίπου 100.0x σε πραγματικό χρόνο στις GPUs μας. Ένα αρχείο ήχου 1 ώρας τελειώνει σε λιγότερο από 1 λεπτά; μεγαλύτερη ουρά αρχείων και να ειδοποιήσει με email όταν γίνει.
Vosk έχει 50M παραμέτρους. Μεγαλύτερα μοντέλα τείνουν να είναι πιο ακριβή αλλά πιο αργά; STT.ai φιλοξενεί Vosk σε GPU έτσι ώστε η μέτρηση παραμέτρου δεν επηρεάζει τις επιδόσεις του πελάτη-πλευρά σας.
Το Vosk δέχεται κάθε μορφή STT.ai υποστηρίζει MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, και άλλα. Έξοδος ως TXT, SRT, VTT, DOCX, JSON, ή PDF.
Ναι. Διαχωρισμός ομιλητών τρέχει παράλληλα με Vosk για κάθε μεταγραφή. Κάθε ομιλητής φέρει την ετικέτα και μπορείτε να τα μετονομάσετε στον επεξεργαστή στη συνέχεια.
Ναι. Vosk τρέχει στο διαχειριστικό περιβάλλον μας Ο ήχος επεξεργάζεται και διαγράφεται από προεπιλογή και δεν χρησιμοποιείται ποτέ για την εκπαίδευση χωρίς ρητή opt-in. Pro σχέδια προσθέτουν κρυπτογράφηση client-side για τα πρακτικά σε κατάσταση ηρεμίας.
Χρησιμοποιήστε το εργαλείο σύγκρισης-stt για να τρέξει Vosk με οποιοδήποτε άλλο υποστηριζόμενο μοντέλο για το ίδιο ακουστικό ~ θα δείτε WER, section μετρώντας, ετικέτες ηχείων, και βαθμολογία εμπιστοσύνης δίπλα-δίπλα. Η σύγκριση Vosk vs Whisper Large V3 είναι η πιο συχνά τρέχει.
Ναι. Καθορίστε το "vosk" ως την παράμετρο του μοντέλου στο τελικό σημείο /v1/trancribe. Python και Node.js SDKs περιλαμβάνουν Vosk παραδείγματα. Free API βαθμίδα περιλαμβάνει 100 λεπτά/μήνα.
Ναι. Επειδή το Vosk είναι Apache 2.0-licensed, μπορείτε να το αυτο-φιλοξενήσετε. STT.ai ανοιχτής πηγής σελίδα του αναφέρει το repo του έργου και τα βάρη. Οι περισσότερες ομάδες παραγωγής χρησιμοποιούν την φιλοξενούμενη έκδοση μας για να παραλείψετε προμήθειες GPU, μοντέλα ανταλλαγής, και ops.