Pranešti apie klaidą / funkcijų užklausą

Atsekti Vosk

Name: Vosk
Author: Alpha Cephei

Veikia su viešai prieinama garso ir vaizdo medžiaga. DRM apsaugotas turinys nepalaikomas.

Atnaujinti tobulinimui

Privatus stenograma

Pokalbis su stenograma

Atrakinti su Pro →

Numeskite failą čia arba spustelėkite norėdami naršyti

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM – iki 2GB

Partijos įkelti kelis failus su Pro

Atnaujinti tobulinimui

Privatus stenograma

Pokalbis su stenograma

Atrakinti su Pro →

Atnaujinti tobulinimui

Kalbėjimas realiu laiku su tekstu. AIS auto-korekcija, kai jūs kalbate — tikslumas pagerina ilgiau kalba.

Pirmiausia patikrinkite mikrofoną

10 nemokamų min. per dieną 600 min be registracijos Nėra kredito kortelės Šifruojama

Užsiregistruoti nemokamai →

12.0%

WER

Kalbos

100.0x

Greitis

Apache 2.0

Licencija

Apie Vosk

Voskas yra atsijungęs kalbos atpažinimo priemonių rinkinys, kuris veikia be interneto ryšio. Jis palaiko 20+ kalbų su kompaktiškais modeliais, kurie gali paleisti mobiliųjų prietaisų, Aviečių Pi, ir bet kokia platforma. Pastatytas Kaldi ir Zipbuygen architektūros.

Kalbos remiamos Vosk

Anglų

Ispanų

Prancūzų

Vokiečių

Kinų

Japonų

Korėjiečių

Portugalų

Arabų

Hindi

Rusų

Italų

Olandų

Turkų

Lenkų

Švedų

Indoneziečių

Vietnamiečių

Čekų

Graikų

Pavyzdinės informacijos

TeikėjasAlpha Cephei
Architektūra-
LicencijaApache 2.0
AtnaujintaMar 2026

Susiję modeliai

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Dažnai užduodami klausimai

Vosk yra kalbos-teksto modelis iki Alpha Cephei. STT.ai savo GPU infrastruktūroje sumontuoti Vosk, todėl jį galite naudoti neįrengdami savo techninės įrangos – įkelkite garso ar vaizdo ir pasirinkite Vosk iš modelio parinkiklis.

Dėl standartinių lyginamųjų standartų, Vosk pasiekia apie 8801% Word error Rate. Realaus pasaulio tikslumas priklauso nuo garso kokybės, akcentas, ir kalba; Triukšmingų ar akcentuotų įrašų, tikėtis keletą procentinių punktų didesnis WER.

Vosk veikia STT.ai laisvų pakopų – kiekvienas lankytojas gauna 600 minučių pradėti be jokios kainos. Mokami planai pridėti daugiau per failą ribų, privačių stenogramų, ir prioritetinių eilė.

Vosk yra išleistas pagal Apache 2.0, leistina atviro kodo licencija. Galite savarankiškai-host Vosk ant savo aparatūros arba naudoti mūsų palaikomą versiją - abu yra komerciškai naudoti.

Vosk palaiko 20 kalbas. Automatinis aptikimas pasirenka reikiamą kalbą daugumai garso; taip pat galite nurodyti ją rankiniu būdu nedideliam tikslumui pakelti.

Vosk apdoroja garsą maždaug 100.0x realiu laiku mūsų GPU. 1 valandos garso failas baigiasi po 1 minučių; ilgesnis failų eilė ir apie tai praneš el. paštu, kai tai bus padaryta.

Vosk turi 50M parametrus. Didesni modeliai yra tikslesni, bet lėčiau; STT.ai GPU mazgai Vosk, todėl parametrų skaičius neturi įtakos Jūsų klientų veiklos rezultatams.

Vosk priima kiekvieną formatą STT.ai palaiko: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI ir kt. Išvesti kaip TXT, SRT, VTT, DOCX, JSON, arba PDF.

Taip. Garsiakalbio diarizacija veikia šalia Vosk kiekvienam transkripcija – kiekvienas garsiakalbis yra pažymėtas ir galite pervadinti juos redaktoriuje po to.

Taip. Vosk veikia mūsų valdomoje aplinkoje — garso yra apdorojamas ir ištrinamas pagal nutylėjimą ir niekada naudojamas mokymui be aiškaus opt-in. Pro planai pridėti kliento pusėje šifravimo stenogramos poilsio.

Naudokite palyginimo-stt įrankis paleisti Vosk prieš bet kurį kitą palaikomą modelį tame pačiame garso — pamatysite WER, segmentų skaičių, garsiakalbių etiketes ir pasitikėjimo balus šalia-by-by. Vosk palyginti Whisper didelis V3 yra dažniausiai paleisti.

Taip. Nurodykite "vosk" kaip modelio parametrą /v1/tractor parametrą. Python ir Node.js SDK yra Vosk pavyzdžiai. Nemokama API pakopa apima 100 minučių/mėnesį.

Taip. Kadangi Vosk yra Apache 2.0-licencijuotas, galite patys-host jį. STT.ai atviro kodo puslapis išvardija projekto atpirkimo ir svorius. Dauguma gamybos komandos naudoja mūsų įdiegtą versiją praleisti GPU pirkimų, modelių apsikeitimo, ir ops.

Atsekti Vosk

Apie Vosk

Kalbos remiamos Vosk

Pavyzdinės informacijos

Susiję modeliai

Dažnai užduodami klausimai

Kas yra Vosk?

Kiek tikslūs yra Vosk?

Ar Vosk laisva naudoti?

Kokią licenciją naudoja Vosk?

Kiek kalbų palaiko Vosk?

Kaip greitai yra Vosk?

Kiek didelis yra Vosk modelis?

Kokie garso formatai gali perrašyti Vosk?

Ar Vosk aptikti kelis garsiakalbius?

Ar mano duomenys privatūs naudojant Vosk?

Kaip palyginti su kitais STT modeliais Vosk?

Ar galiu naudoti Vosk per API?

Ar galiu paleisti Vosk savo serveryje?