로 전사 NVIDIA Canary
3.5%
WER
4
Languages
45.0x
Speed
CC-BY-4.0
License
소개 NVIDIA Canary
NVIDIA Canary is a 1B parameter model that excels at English, German, French, and Spanish transcription. Built on the NeMo framework, it uses a FastConformer encoder with a transformer decoder and supports automatic language detection and translation.
Model Info
- ProviderNVIDIA
- Architecture-
- LicenseCC-BY-4.0
- UpdatedMar 2026
자주 묻는 질문
NVIDIA Canary은 NVIDIA의 음성 텍스트 모델입니다. STT.ai은 NVIDIA Canary을 GPU 인프라에 호스팅하므로, 사용자가 자신의 하드웨어를 프로비저닝하지 않고도 사용할 수 있습니다. 오디오 또는 비디오를 업로드하고 모델 선택기에서 NVIDIA Canary을 선택하십시오.
표준 벤치마크에서 NVIDIA Canary은 약 3.5%의 단어 오류율을 달성합니다. 실제 정확도는 오디오 품질, 억양 및 언어에 따라 다릅니다. 소음이 많은 녹음이나 억양이 강한 녹음의 경우 WER가 몇 퍼센트 더 높을 것으로 예상됩니다.
NVIDIA Canary은 STT.ai의 무료 계층에서 실행됩니다. 모든 방문자는 무료로 600분/월을 얻습니다. 유료 계획은 파일당 더 긴 제한, 개인 전자 서명 및 우선 순위 대기열을 추가합니다.
NVIDIA Canary은 CC-BY-4.0 라이선스로 배포되며, 이는 허용적인 오픈 소스 라이선스입니다. NVIDIA Canary을 자신의 하드웨어에서 셀프 호스팅하거나 호스팅 버전을 사용할 수 있습니다.
NVIDIA Canary은 4 언어를 지원합니다. 자동 감지는 대부분의 오디오에 적합한 언어를 선택합니다. 작은 정확도 향상을 위해 수동으로 지정할 수도 있습니다.
NVIDIA Canary은 GPU에서 약 45.0x의 실시간으로 오디오를 처리합니다. 1시간짜리 오디오 파일은 1분 이내에 완료됩니다. 더 긴 파일은 대기열에 올라와 완료되면 이메일로 알려줍니다.
NVIDIA Canary은 1B 매개변수를 가지고 있습니다. 큰 모델은 더 정확하지만 느립니다. STT.ai은 GPU에서 NVIDIA Canary을 호스팅하므로 매개변수 수가 클라이언트 측 성능에 영향을 미치지 않습니다.
NVIDIA Canary은 STT.ai이 지원하는 모든 형식을 받아들입니다. MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI 등. 출력은 TXT, SRT, VTT, DOCX, JSON 또는 PDF로 가능합니다.
네. 모든 녹음에 대해 NVIDIA Canary과 함께 스피커 디아리제이션이 실행됩니다. 각 스피커는 레이블이 부여되며 나중에 편집기에서 이름을 변경할 수 있습니다.
NVIDIA Canary은 관리형 환경에서 실행되며, 오디오는 기본적으로 처리되고 삭제되며 명시적인 옵트인 없이는 교육에 사용되지 않습니다. Pro 플랜은 휴면 상태의 녹음파일에 대한 클라이언트 측 암호화를 추가합니다.
compare-stt 도구를 사용하여 동일한 오디오에서 다른 지원되는 모델과 NVIDIA Canary을 비교합니다. WER, 세그먼트 수, 스피커 레이블, 신뢰도 점수가 나란히 표시됩니다. NVIDIA Canary 대 Whisper Large V3 비교는 가장 일반적으로 실행됩니다.
예. /v1/transcribe 엔드포인트의 모델 매개 변수로 "nvidia-canary"을 지정합니다. Python 및 Node.js SDK에는 NVIDIA Canary 예가 포함되어 있습니다. 무료 API 계층에는 월 100분이 포함됩니다.
NVIDIA Canary은 CC-BY-4.0 라이선스를 받았기 때문에 셀프 호스팅할 수 있습니다. STT.ai의 오픈 소스 페이지에는 프로젝트 레포와 가중치가 나열되어 있습니다. 대부분의 프로덕션 팀은 GPU 조달, 모델 스왑 및 운영을 건너뛰기 위해 호스팅 버전을 사용합니다.