เขียนเป็นลำดับ Vosk

Name: Vosk
Author: Alpha Cephei

ทำงานกับวิดีโอและเสียงที่เปิดให้ใช้โดยทั่วไป ไม่รองรับเนื้อหาที่ได้รับการปกป้องด้วย DRM

ปรับปรุงสำหรับ Enhanced

ส่วนตัว

คุยกับแปล

เปิดล็อคด้วยโปร →

วางแฟ้มที่นี่ หรือคลิกเพื่อค้นหา

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM - สูงสุด 2GB

โหลดแฟ้มหลายแฟ้มเป็นกลุ่ม กับโปร

ปรับปรุงสำหรับ Enhanced

ส่วนตัว

คุยกับแปล

เปิดล็อคด้วยโปร →

ปรับปรุงสำหรับ Enhanced

คำพูดเป็นข้อความแบบเรียลไทม์ AI ปรับปรุงอัตโนมัติเมื่อคุณพูด - ความแม่นยำจะดีขึ้นเมื่อคุณพูดนานขึ้น

ทดสอบไมโครโฟนก่อน

10 นาทีฟรี/ วัน 600 นาทีฟรี กับการสมัคร ไม่มีบัตรเครดิต เข้ารหัสไว้

ลงทะเบียนฟรี →

12.0%

WER

ภาษา

100.0x

ความเร็ว

Apache 2.0

ใบอนุญาต

เกี่ยวกับ Vosk

Vosk เป็นชุดเครื่องมือการจดจำเสียงแบบออฟไลน์ที่ทำงานโดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต มันรองรับภาษามากกว่า 20 ภาษา ด้วยโมเดลขนาดเล็กที่สามารถทำงานบนอุปกรณ์มือถือ, Raspberry Pi และแพลตฟอร์มใด ๆ ได้ สร้างขึ้นบนสถาปัตยกรรม Kaldi และ Zipformer

ภาษาที่รองรับ Vosk

อังกฤษ

สเปน

ฝรั่งเศส

เยอรมัน

จีน

ญี่ปุ่น

เกาหลี

โปรตุเกส

อาหรับ

ฮินดี

รัสเซีย

อิตาลี

ดัตช์

ตุรกี

โปแลนด์

สวีเดน

อินโดนีเซีย

เวียดนาม

เช็ก

กรีก

ข้อมูลรุ่น

ตัวจัดหาAlpha Cephei
สถาปัตยกรรม-
ใบอนุญาตApache 2.0
ปรับปรุงใหม่Mar 2026

โมเดลที่เกี่ยวข้อง

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

คำถามที่พบบ่อย

Vosk เป็นโมเดลการแปลงเสียงเป็นข้อความของ Alpha Cephei STT.ai ใช้โครงสร้างพื้นฐานของ GPU ของเรา ดังนั้นคุณสามารถใช้มันได้โดยไม่ต้องจัดหาฮาร์ดแวร์ของคุณเอง — โหลดเสียงหรือวิดีโอ และเลือก Vosk จากตัวเลือกโมเดล

ตามมาตรฐานการทดสอบ Vosk สามารถทำได้ราว 12.0% ของอัตราความผิดพลาดของคำ ความแม่นยำในโลกจริงขึ้นอยู่กับคุณภาพเสียง สำเนียง และภาษา สำหรับเสียงรบกวนหรือสำเนียงที่บันทึกไว้ ควรจะคาดหวังให้ WER สูงกว่า WER หลายเปอร์เซ็นต์

Vosk ทำงานบน STT.ai ระดับฟรี - ผู้เข้าชมทุกคนได้รับ 600 นาทีเพื่อเริ่มต้นโดยไม่มีค่าใช้จ่าย แผนจ่ายเพิ่มการ จำกัด ต่อไฟล์ ส่วนตัวและคิวที่สำคัญ

Vosk ถูกปล่อยออกมาภายใต้ Apache 2.0 ใบอนุญาตโอเพนซอร์สที่อนุญาตให้คุณสามารถใช้ Vosk บนฮาร์ดแวร์ของคุณเอง หรือใช้เวอร์ชั่นที่เราจัดเตรียมไว้ — ทั้งหมดนี้สามารถใช้ได้ในเชิงพาณิชย์

Vosk รองรับภาษา 20 ตัวตรวจจับอัตโนมัติจะเลือกภาษาที่ถูกต้องสำหรับเสียงส่วนใหญ่ คุณสามารถกำหนดเองได้ด้วยเพื่อเพิ่มความแม่นยำเล็กน้อย

Vosk ประมวลผลเสียงด้วยความเร็วประมาณ 100.0x ตามเวลาจริงบน GPU ของเรา แฟ้มเสียง 1 ชั่วโมง จะใช้เวลาไม่ถึง 1 นาที ส่วนแฟ้มที่ยาวกว่าจะถูกจัดเป็นคิวและแจ้งให้ทราบทางอีเมลเมื่อเสร็จสิ้น

Vosk มีพารามิเตอร์ 50M รุ่นที่ใหญ่กว่าจะมีแนวโน้มที่จะแม่นยำกว่า แต่ช้ากว่า; STT.ai ใช้ Vosk บน GPU ดังนั้น การนับพารามิเตอร์จะไม่ส่งผลต่อประสิทธิภาพด้านคลาวด์ของคุณ

Vosk รองรับทุกรูปแบบที่ STT.ai รองรับ — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI และอื่นๆ อีกมากมาย นำออกมาเป็น TXT, SRT, VTT, DOCX, JSON หรือ PDF

ใช่ การจัดเรียงผู้พูด ทำงานร่วมกับ Vosk สำหรับทุกการแปล ทุกคนที่พูดมีฉลาก และคุณสามารถเปลี่ยนชื่อพวกเขาในเครื่องมือแก้ไข

ใช่ Vosk ทำงานในสภาพแวดล้อมที่จัดการได้ของเรา - เสียงจะถูกประมวลผลและลบโดยปริยาย และไม่เคยใช้สำหรับการฝึกอบรมโดยไม่ต้องเลือกอย่างชัดเจน แพ็คเกจโปรเพิ่มการเข้ารหัสด้านคลาวด์สำหรับแปลภาษาที่พัก

ใช้เครื่องมือ compare- stt เพื่อประมวลผล Vosk กับรุ่นอื่นที่รองรับบนเครื่องเสียงเดียวกัน คุณจะเห็น WER, จำนวนเซกเมนต์, แท็กลำโพง และคะแนนความเชื่อมั่น ติดกัน การเปรียบเทียบ Vosk กับ Whisper Large V3 นั้นเป็นวิธีที่ใช้กันมากที่สุด

ใช่ ระบุ "vosk" เป็นพารามิเตอร์แบบจำลองบนจุดจบ /v1/transcribe Python และ Node.js SDKs รวมถึงตัวอย่าง Vosk ระดับ API ฟรี รวมถึง 100 นาที/เดือน

ใช่ เพราะ Vosk ได้รับอนุญาตจาก Apache 2.0 คุณสามารถโฮสต์มันเองได้ หน้าโอเพนซอร์สของ STT.ai แสดงรายการโครงการและน้ำหนัก ทีมผลิตส่วนใหญ่ใช้เวอร์ชั่นโฮสต์ของเรา ข้ามการซื้อ GPU แบบจำลองสลับและปฏิบัติการ

เขียนเป็นลำดับ Vosk

เกี่ยวกับ Vosk

ภาษาที่รองรับ Vosk

ข้อมูลรุ่น

โมเดลที่เกี่ยวข้อง

คำถามที่พบบ่อย

Vosk คืออะไร

88,000 มันถูกต้องแค่ไหน

Vosk ใช้ฟรีไหม

Vosk ใช้ใบอนุญาตอะไร

Vosk รองรับภาษากี่ภาษา

Vosk เร็วแค่ไหน

ขนาดของ Vosk เท่าไหร่

Vosk สามารถแปลงเสียงได้ยังไง

Vosk สามารถตรวจจับเสียงหลายคนได้ไหม

ข้อมูลส่วนตัวของฉัน ถ้าใช้ Vosk

Vosk มันเทียบกับ STT รุ่นอื่นๆได้ยังไง

ฉันใช้ Vosk ผ่าน API ได้ไหม

ฉันสามารถใช้ Vosk บนเซิร์ฟเวอร์ของฉันได้ไหม?