ถอดเสียงด้วย SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
เกี่ยวกับ SenseVoice
SenseVoice is a speech foundation model from FunAudioLLM that goes beyond transcription. It supports 50+ languages and includes capabilities for emotion recognition, audio event detection, and inverse text normalization in a single model.
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
คำถามที่พบบ่อย
SenseVoice เป็นโมเดลการแปลงเสียงเป็นข้อความของ FunAudioLLM STT.ai ใช้โครงสร้างพื้นฐานของ GPU ของเรา ดังนั้นคุณสามารถใช้มันได้โดยไม่ต้องจัดหาฮาร์ดแวร์ของคุณเอง — โหลดเสียงหรือวิดีโอ และเลือก SenseVoice จากตัวเลือกโมเดล
ตามมาตรฐานการทดสอบ SenseVoice สามารถทำได้ราว 5.5% ของอัตราความผิดพลาดของคำ ความแม่นยำในโลกจริงขึ้นอยู่กับคุณภาพเสียง สำเนียง และภาษา สำหรับเสียงรบกวนหรือสำเนียงที่บันทึกไว้ ควรจะคาดหวังให้ WER สูงกว่า WER หลายเปอร์เซ็นต์
SenseVoice ทำงานบน STT.ai ระดับฟรี - ผู้เข้าชมทุกคนได้รับ 600 นาที/เดือนโดยไม่มีค่าใช้จ่าย แพ็คเกจที่จ่ายเพิ่มการ จำกัด ต่อไฟล์ที่ยาวขึ้น, ส่วนตัวตีความ, และคิวที่ให้ความสำคัญ
SenseVoice ถูกปล่อยออกมาภายใต้ MIT ใบอนุญาตโอเพนซอร์สที่อนุญาตให้คุณสามารถใช้ SenseVoice บนฮาร์ดแวร์ของคุณเอง หรือใช้เวอร์ชั่นที่เราจัดเตรียมไว้ — ทั้งหมดนี้สามารถใช้ได้ในเชิงพาณิชย์
SenseVoice รองรับภาษา 50 ตัวตรวจจับอัตโนมัติจะเลือกภาษาที่ถูกต้องสำหรับเสียงส่วนใหญ่ คุณสามารถกำหนดเองได้ด้วยเพื่อเพิ่มความแม่นยำเล็กน้อย
SenseVoice ประมวลผลเสียงด้วยความเร็วประมาณ 50.0x ตามเวลาจริงบน GPU ของเรา แฟ้มเสียง 1 ชั่วโมง จะใช้เวลาไม่ถึง 1 นาที ส่วนแฟ้มที่ยาวกว่าจะถูกจัดเป็นคิวและแจ้งให้ทราบทางอีเมลเมื่อเสร็จสิ้น
SenseVoice มีพารามิเตอร์ 234M รุ่นที่ใหญ่กว่าจะมีแนวโน้มที่จะแม่นยำกว่า แต่ช้ากว่า; STT.ai ใช้ SenseVoice บน GPU ดังนั้น การนับพารามิเตอร์จะไม่ส่งผลต่อประสิทธิภาพด้านคลาวด์ของคุณ
SenseVoice รองรับทุกรูปแบบที่ STT.ai รองรับ — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI และอื่นๆ อีกมากมาย นำออกมาเป็น TXT, SRT, VTT, DOCX, JSON หรือ PDF
ใช่ การจัดเรียงผู้พูด ทำงานร่วมกับ SenseVoice สำหรับทุกการแปล ทุกคนที่พูดมีฉลาก และคุณสามารถเปลี่ยนชื่อพวกเขาในเครื่องมือแก้ไข
ใช่ SenseVoice ทำงานในสภาพแวดล้อมที่จัดการได้ของเรา - เสียงจะถูกประมวลผลและลบโดยปริยาย และไม่เคยใช้สำหรับการฝึกอบรมโดยไม่ต้องเลือกอย่างชัดเจน แพ็คเกจโปรเพิ่มการเข้ารหัสด้านคลาวด์สำหรับแปลภาษาที่พัก
ใช้เครื่องมือ compare- stt เพื่อประมวลผล SenseVoice กับรุ่นอื่นที่รองรับบนเครื่องเสียงเดียวกัน คุณจะเห็น WER, จำนวนเซกเมนต์, แท็กลำโพง และคะแนนความเชื่อมั่น ติดกัน การเปรียบเทียบ SenseVoice กับ Whisper Large V3 นั้นเป็นวิธีที่ใช้กันมากที่สุด
ใช่ ระบุ "sensevoice" เป็นพารามิเตอร์แบบจำลองบนจุดจบ /v1/transcribe Python และ Node.js SDKs รวมถึงตัวอย่าง SenseVoice ระดับ API ฟรี รวมถึง 100 นาที/เดือน
ใช่ เพราะ SenseVoice ได้รับอนุญาตจาก MIT คุณสามารถโฮสต์มันเองได้ หน้าโอเพนซอร์สของ STT.ai แสดงรายการโครงการและน้ำหนัก ทีมผลิตส่วนใหญ่ใช้เวอร์ชั่นโฮสต์ของเรา ข้ามการซื้อ GPU แบบจำลองสลับและปฏิบัติการ