로 전사 STT.ai Enhanced

공개적으로 사용 가능한 오디오 및 비디오와 함께 작동합니다. DRM 보호 콘텐츠는 지원되지 않습니다.

향상된 업그레이드
Private transcript
녹음본과 채팅
Pro로 잠금 해제 →
파일을 여기에 드롭하거나 클릭하여 찾아보십시오.
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 최대 2GB
향상된 업그레이드
Private transcript
녹음본과 채팅
Pro로 잠금 해제 →
향상된 업그레이드
녹음 중: 0:00
실시간 왁스 (즉각)
향상된 속삭임 (정확)
공개 링크: 24시간, 텍스트만 · 가입하기 7d + 오디오를위한 · 프로 개인 링크에 대한

실시간 음성 텍스트로. AI가 말하는 동안 자동으로 수정합니다.

먼저 마이크 테스트
❤️ STT.ai를 사랑하시나요? 친구들에게 알려주세요!
너는 너의 무료 녹음을 사용했어

무료로 가입하여 600분/월을 받거나 무제한 녹음을 위해 업그레이드하십시오.

10 무료 분/일 가입 시 600분 무료 신용카드 필요 없음 암호화됨
무료로 가입하세요 →
3.2%
WER
100
Languages
160.0x
Speed
Proprietary
License

소개 STT.ai Enhanced

STT.ai Enhanced is our most accurate and fastest speech-to-text model. Built on cutting-edge transformer architecture with proprietary optimizations, it delivers industry-leading word error rates across 100+ languages. Ideal for production transcription, real-time captioning, and enterprise applications.
✦ Unlock Enhanced Model

Get access to our most accurate model with any paid plan. 3.2% WER, 160x real-time speed, 100+ languages.

View Plans →
Model Info
  • ProviderSTT.ai
  • Architecture-
  • LicenseProprietary
  • UpdatedMar 2026

자주 묻는 질문

STT.ai Enhanced은 STT.ai의 음성 텍스트 모델입니다. STT.ai은 STT.ai Enhanced을 GPU 인프라에 호스팅하므로, 사용자가 자신의 하드웨어를 프로비저닝하지 않고도 사용할 수 있습니다. 오디오 또는 비디오를 업로드하고 모델 선택기에서 STT.ai Enhanced을 선택하십시오.

표준 벤치마크에서 STT.ai Enhanced은 약 3.2%의 단어 오류율을 달성합니다. 실제 정확도는 오디오 품질, 억양 및 언어에 따라 다릅니다. 소음이 많은 녹음이나 억양이 강한 녹음의 경우 WER가 몇 퍼센트 더 높을 것으로 예상됩니다.

STT.ai Enhanced은 프리미엄 모델로, 월 5달러부터 시작하는 유료 STT.ai 플랜에 포함되어 있습니다. 무료 사용자는 짧은 클립에서 STT.ai Enhanced을 미리 볼 수 있습니다. 더 긴 파일은 활성 플랜이 필요합니다.

STT.ai Enhanced은 Proprietary로 배포됩니다. STT.ai의 호스팅 버전은 라이선스 규정을 처리하므로 당사 서비스를 통해 상업적 사용이 간단합니다.

STT.ai Enhanced은 100 언어를 지원합니다. 자동 감지는 대부분의 오디오에 적합한 언어를 선택합니다. 작은 정확도 향상을 위해 수동으로 지정할 수도 있습니다.

STT.ai Enhanced은 GPU에서 약 160.0x의 실시간으로 오디오를 처리합니다. 1시간짜리 오디오 파일은 1분 이내에 완료됩니다. 더 긴 파일은 대기열에 올라와 완료되면 이메일로 알려줍니다.

STT.ai Enhanced은 1.5B 매개변수를 가지고 있습니다. 큰 모델은 더 정확하지만 느립니다. STT.ai은 GPU에서 STT.ai Enhanced을 호스팅하므로 매개변수 수가 클라이언트 측 성능에 영향을 미치지 않습니다.

STT.ai Enhanced은 STT.ai이 지원하는 모든 형식을 받아들입니다. MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI 등. 출력은 TXT, SRT, VTT, DOCX, JSON 또는 PDF로 가능합니다.

네. 모든 녹음에 대해 STT.ai Enhanced과 함께 스피커 디아리제이션이 실행됩니다. 각 스피커는 레이블이 부여되며 나중에 편집기에서 이름을 변경할 수 있습니다.

STT.ai Enhanced은 프라이빗 인프라에서 실행되며, 오디오는 기본적으로 처리되고 삭제됩니다. Pro+는 클라이언트 측 암호화를 추가하여 키 없이는 녹음을 읽을 수 없게 하며, Private Cloud는 STT.ai Enhanced을 완전히 자체 VPC에서 셀프 호스팅할 수 있게 해줍니다.

compare-stt 도구를 사용하여 동일한 오디오에서 다른 지원되는 모델과 STT.ai Enhanced을 비교합니다. WER, 세그먼트 수, 스피커 레이블, 신뢰도 점수가 나란히 표시됩니다. STT.ai Enhanced 대 Whisper Large V3 비교는 가장 일반적으로 실행됩니다.

예. /v1/transcribe 엔드포인트의 모델 매개 변수로 "stt-ai-enhanced"을 지정합니다. Python 및 Node.js SDK에는 STT.ai Enhanced 예가 포함되어 있습니다. 무료 API 계층에는 월 100분이 포함됩니다.

STT.ai Enhanced의 라이선스는 STT.ai가 설정하며, 셀프 호스팅은 그들의 약관에 따라 달라집니다. STT.ai의 호스팅 서비스는 관리형 GPU에서 STT.ai Enhanced을 실행하므로 통합을 처리할 필요가 없습니다.