Rapportér fejl / funktionsanmodning

Transskriber med Vosk

Name: Vosk
Author: Alpha Cephei

Fungerer med offentligt tilgængelig lyd og video. DRM- beskyttet indhold understøttes ikke.

Opgradering til forbedret

Privat udskrift

Chat med udskrift

Lås op med Pro →

Slip fil her eller klik for at gennemse

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM ~ op til 2GB

Batch uploade flere filer med Pro

Opgradering til forbedret

Privat udskrift

Chat med udskrift

Lås op med Pro →

Opgradering til forbedret

Real-time tale til tekst. AI auto-korrigerer som du taler nøjagtighed forbedrer med længere tale.

Test din mikrofon først

10 gratis min/dag 600 min fri med tilmelding Intet kreditkort Krypteret

Tilmeld dig gratis →

12.0%

WER

Sprog

100.0x

Hastighed

Apache 2.0

Licens

Om Vosk

Vosk er en offline talegenkendelse toolkit, der fungerer uden en internetforbindelse. Den understøtter 20 + sprog med kompakte modeller, der kan køre på mobile enheder, Raspberry Pi, og enhver platform. Bygget på Kaldi og Zipformer arkitekturer.

Sprog understøttet af Vosk

Engelsk

Spansk

Fransk

Tysk

Kinesisk

Japansk

Koreansk

Portugisisk

Arabisk

Hindi

Russisk

Italiensk

Nederlandsk

Tyrkisk

Polsk

Svensk

Indonesisk

Vietnamesisk

Tjekkisk

Græsk

Modelinformation

LeverandørAlpha Cephei
Arkitektur-
LicensApache 2.0
OpdateretMar 2026

Relaterede modeller

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Ofte stillede spørgsmål

Vosk er en tale-til-tekst model af Alpha Cephei. STT.ai værter Vosk på vores GPU-infrastruktur, så du kan bruge det uden at give din egen hardware uploade lyd eller video og vælge Vosk fra modelvælgeren.

På standard benchmarks, Vosk opnår omkring 12.0% Word Error Rate. Real-verden nøjagtighed afhænger af lydkvalitet, accent og sprog; for støjende eller accent optagelser, forventer et par procentpoint højere WER.

Vosk kører på STT.ai gratis niveau ! hver besøgende får 600 minutter til at starte uden omkostninger. Betalt planer tilføje længere per-fil grænser, private udskrifter, og prioritet kø.

Vosk er udgivet under Apache 2.0, en permissiv open source licens. Du kan selvvært Vosk på din egen hardware eller bruge vores hosted version! begge er kommercielt brugbare.

Vosk understøtter 20 sprog. Auto-detektering vælger det rigtige sprog til de fleste lyd; du kan også angive det manuelt for en lille nøjagtighed elevator.

Vosk behandler lyd på omkring 100.0x realtid på vores GPU'er. En 1-timers lydfil slutter på under 1 minutter; længere filer kø og underrette via e-mail, når det er gjort.

Vosk har 50M parametre. Større modeller har tendens til at være mere præcise, men langsommere; STT.ai værter Vosk på GPU, så parameteren tæller ikke påvirker din klient-side ydeevne.

Vosk accepterer hvert format STT.ai understøtter ~ MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, og andre. Output som TXT, SRT, VTT, DOCX, JSON, eller PDF.

Ja. Speaker diarization kører sammen med Vosk for hver transskription! hver højttaler er mærket, og du kan omdøbe dem i editoren bagefter.

Ja. Vosk kører i vores administrerede miljø ~ lyd behandles og slettes som standard og aldrig bruges til træning uden eksplicit opt-in. Pro planer tilføje klient-side kryptering for udskrifter på hvile.

Brug sammenligning-stt værktøj til at køre Vosk mod enhver anden understøttet model på den samme lyd! du vil se WER, segment tæller, højttaler etiketter, og tillid scorer side om side. Vosk vs Whisper Stor V3 sammenligning er den mest almindelige køre.

Ja. Angiv "vosk" som modelparameter på /v1/transcribe endpoint. Python og node.js SDKs omfatter Vosk eksempler. Gratis API-niveau inkluderer 100 minutter/måned.

Ja. Fordi Vosk er Apache 2.0-licenseret, kan du selv være vært for det. STT.ai open source side viser projektet repo og vægte. De fleste produktionshold bruger vores hosted version til at springe GPU indkøb, model swaps og ops.

Transskriber med Vosk

Om Vosk

Sprog understøttet af Vosk

Modelinformation

Relaterede modeller

Ofte stillede spørgsmål

Hvad er Vosk?

Hvor nøjagtig er Vosk?

Er Vosk gratis at bruge?

Hvilken licens bruger Vosk?

Hvor mange sprog understøtter Vosk?

Hvor hurtigt er Vosk?

Hvor stor er Vosk-modellen?

Hvilke lydformater kan Vosk transskribere?

Opdager Vosk flere højttalere?

Er mine data private, når du bruger Vosk?

Hvordan kan Vosk sammenlignes med andre STT-modeller?

Kan jeg bruge Vosk via API?

Kan jeg køre Vosk på min egen server?