ถอดเสียงด้วย NVIDIA Parakeet

ทำงานกับวิดีโอและเสียงที่เปิดให้ใช้โดยทั่วไป ไม่รองรับเนื้อหาที่ได้รับการปกป้องด้วย DRM

ปรับปรุงสำหรับ Enhanced
Private transcript
คุยกับแปล
เปิดล็อคด้วยโปร →
วางแฟ้มที่นี่ หรือคลิกเพื่อค้นหา
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM - สูงสุด 2GB
ปรับปรุงสำหรับ Enhanced
Private transcript
คุยกับแปล
เปิดล็อคด้วยโปร →
ปรับปรุงสำหรับ Enhanced
บันทึก: 0:00
ตามเวลาจริง ขี้ผึ้ง (ชั่วคราว)
เพิ่มประสิทธิภาพ กระซิบ (แม่นยำ)
ลิงค์สาธารณะ: 24 ชั่วโมง, ข้อความเท่านั้น · ลงทะเบียน สำหรับ 7d + เสียง · โปร สำหรับลิงก์ส่วนตัว

คำพูดเป็นข้อความแบบเรียลไทม์ AI ปรับปรุงอัตโนมัติเมื่อคุณพูด - ความแม่นยำจะดีขึ้นเมื่อคุณพูดนานขึ้น

ทดสอบไมโครโฟนก่อน
❤️ รัก STT.ai บอกเพื่อนๆ
คุณใช้การแปลภาษาฟรีของคุณ

ลงทะเบียนฟรีเพื่อรับ 600 นาที/เดือน หรือปรับปรุงเพื่อการแปลเป็นภาษาอื่น

10 นาทีฟรี/ วัน 600 นาทีฟรี กับการสมัคร ไม่มีบัตรเครดิต เข้ารหัสไว้
ลงทะเบียนฟรี →
3.0%
WER
1
Languages
55.0x
Speed
CC-BY-4.0
License

เกี่ยวกับ NVIDIA Parakeet

NVIDIA Parakeet TDT 1.1B is a state-of-the-art English ASR model using FastConformer architecture with Token-and-Duration Transducer (TDT). It achieves near-human accuracy on standard English benchmarks and is highly optimized for NVIDIA GPUs.

ภาษาที่รองรับ NVIDIA Parakeet

คำถามที่พบบ่อย

NVIDIA Parakeet เป็นโมเดลการแปลงเสียงเป็นข้อความของ NVIDIA STT.ai ใช้โครงสร้างพื้นฐานของ GPU ของเรา ดังนั้นคุณสามารถใช้มันได้โดยไม่ต้องจัดหาฮาร์ดแวร์ของคุณเอง — โหลดเสียงหรือวิดีโอ และเลือก NVIDIA Parakeet จากตัวเลือกโมเดล

ตามมาตรฐานการทดสอบ NVIDIA Parakeet สามารถทำได้ราว 3.0% ของอัตราความผิดพลาดของคำ ความแม่นยำในโลกจริงขึ้นอยู่กับคุณภาพเสียง สำเนียง และภาษา สำหรับเสียงรบกวนหรือสำเนียงที่บันทึกไว้ ควรจะคาดหวังให้ WER สูงกว่า WER หลายเปอร์เซ็นต์

NVIDIA Parakeet ทำงานบน STT.ai ระดับฟรี - ผู้เข้าชมทุกคนได้รับ 600 นาที/เดือนโดยไม่มีค่าใช้จ่าย แพ็คเกจที่จ่ายเพิ่มการ จำกัด ต่อไฟล์ที่ยาวขึ้น, ส่วนตัวตีความ, และคิวที่ให้ความสำคัญ

NVIDIA Parakeet ถูกปล่อยออกมาภายใต้ CC-BY-4.0 ใบอนุญาตโอเพนซอร์สที่อนุญาตให้คุณสามารถใช้ NVIDIA Parakeet บนฮาร์ดแวร์ของคุณเอง หรือใช้เวอร์ชั่นที่เราจัดเตรียมไว้ — ทั้งหมดนี้สามารถใช้ได้ในเชิงพาณิชย์

NVIDIA Parakeet รองรับภาษา 1 ตัวตรวจจับอัตโนมัติจะเลือกภาษาที่ถูกต้องสำหรับเสียงส่วนใหญ่ คุณสามารถกำหนดเองได้ด้วยเพื่อเพิ่มความแม่นยำเล็กน้อย

NVIDIA Parakeet ประมวลผลเสียงด้วยความเร็วประมาณ 55.0x ตามเวลาจริงบน GPU ของเรา แฟ้มเสียง 1 ชั่วโมง จะใช้เวลาไม่ถึง 1 นาที ส่วนแฟ้มที่ยาวกว่าจะถูกจัดเป็นคิวและแจ้งให้ทราบทางอีเมลเมื่อเสร็จสิ้น

NVIDIA Parakeet มีพารามิเตอร์ 1.1B รุ่นที่ใหญ่กว่าจะมีแนวโน้มที่จะแม่นยำกว่า แต่ช้ากว่า; STT.ai ใช้ NVIDIA Parakeet บน GPU ดังนั้น การนับพารามิเตอร์จะไม่ส่งผลต่อประสิทธิภาพด้านคลาวด์ของคุณ

NVIDIA Parakeet รองรับทุกรูปแบบที่ STT.ai รองรับ — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI และอื่นๆ อีกมากมาย นำออกมาเป็น TXT, SRT, VTT, DOCX, JSON หรือ PDF

ใช่ การจัดเรียงผู้พูด ทำงานร่วมกับ NVIDIA Parakeet สำหรับทุกการแปล ทุกคนที่พูดมีฉลาก และคุณสามารถเปลี่ยนชื่อพวกเขาในเครื่องมือแก้ไข

ใช่ NVIDIA Parakeet ทำงานในสภาพแวดล้อมที่จัดการได้ของเรา - เสียงจะถูกประมวลผลและลบโดยปริยาย และไม่เคยใช้สำหรับการฝึกอบรมโดยไม่ต้องเลือกอย่างชัดเจน แพ็คเกจโปรเพิ่มการเข้ารหัสด้านคลาวด์สำหรับแปลภาษาที่พัก

ใช้เครื่องมือ compare- stt เพื่อประมวลผล NVIDIA Parakeet กับรุ่นอื่นที่รองรับบนเครื่องเสียงเดียวกัน คุณจะเห็น WER, จำนวนเซกเมนต์, แท็กลำโพง และคะแนนความเชื่อมั่น ติดกัน การเปรียบเทียบ NVIDIA Parakeet กับ Whisper Large V3 นั้นเป็นวิธีที่ใช้กันมากที่สุด

ใช่ ระบุ "nvidia-parakeet" เป็นพารามิเตอร์แบบจำลองบนจุดจบ /v1/transcribe Python และ Node.js SDKs รวมถึงตัวอย่าง NVIDIA Parakeet ระดับ API ฟรี รวมถึง 100 นาที/เดือน

ใช่ เพราะ NVIDIA Parakeet ได้รับอนุญาตจาก CC-BY-4.0 คุณสามารถโฮสต์มันเองได้ หน้าโอเพนซอร์สของ STT.ai แสดงรายการโครงการและน้ำหนัก ทีมผลิตส่วนใหญ่ใช้เวอร์ชั่นโฮสต์ของเรา ข้ามการซื้อ GPU แบบจำลองสลับและปฏิบัติการ