정확도는 모델과 오디오 품질에 따라 달라집니다. 벤치마크에서 우리의 최고 모델은 3-5%의 단어 오류율을 달성하며, 청결한 음성에서 95-97%의 정확도를 보여줍니다. compare-stt 도구를 사용하면 동일한 파일에서 여러 모델을 실행하여 최상의 모델을 선택할 수 있습니다.

STT.ai은 10개 이상의 모델을 제공합니다. STT.ai Enhanced(가장 정확한 모델), Whisper Large V3(99개 언어), NVIDIA Canary(지원되는 언어 중 WER 1위), Whisper Turbo(빠른 모델), Moonshine(가벼운 모델) 등이 있습니다.

네. YouTube, Vimeo, TikTok, VLC, 모든 주요 비디오 플레이어에서 작동하는 SRT 또는 VTT 자막 파일로 녹화 내보내기. 자막 레코딩 도구는 자막을 하드 서브텍스트로 비디오에 오버레이합니다.

네. 스피커 디아리제이션은 각 음성에 자동으로 레이블을 부여합니다(스피커 1, 스피커 2,...). 편집기에서 이름을 바꿀 수 있습니다. 모든 모델과 언어에서 작동합니다.

대부분의 파일은 5분 이내에 녹음됩니다. 1시간짜리 오디오 파일은 일반적으로 가장 빠른 모델로 2-3분 안에 완성됩니다. 속도는 모델 선택 및 현재 부하에 따라 다릅니다.

STT.ai은 20+의 입력 형식을 지원합니다 — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI 등. 출력은 TXT, SRT, VTT, DOCX, JSON, PDF로 가능합니다.

네, 오디오 파일은 기본적으로 처리되고 삭제됩니다. 프로 플랜은 클라이언트 측 암호화를 추가합니다. 데이터베이스가 침해된 경우에도 귀하의 키 없이는 녹음된 내용을 읽을 수 없습니다. 데이터는 명시적인 옵트인 없이 모델 트레이닝에 사용되지 않습니다.

STT.ai은 Python 및 Node.js SDK가 포함된 REST API를 제공하며 Claude 및 Cursor용 MCP 서버도 제공합니다. 무료 API 계층에는 월 100분이 포함됩니다.

네, 모든 녹음본은 내장된 편집기에서 열리며, 여기서 단어를 수정하고, 발표자 이름을 변경하고, 타임스탬프를 조정하고, 메모를 추가할 수 있습니다. 모든 변경 사항은 자동으로 저장됩니다.

모든 녹음은 공유할 수 있는 고유 URL을 얻습니다. 이메일을 위해 DOCX 또는 PDF로 내보내기. Pro 플랜은 암호로 보호된 영구 링크를 추가합니다.

STT.ai은 YouTube, Vimeo, TikTok, SoundCloud 등 1,300개 이상의 플랫폼을 지원합니다. URL 변환은 공개적으로 사용 가능한 콘텐츠에만 작동합니다. DRM 보호 소스는 변환할 수 없습니다.

무료 온라인 변환 도구

지원되는 오디오 및 비디오 형식

사용 방법

업로드 또는 녹음

AI가 변환

내보내기 및 공유

자주 묻는 질문

STT.ai으로 오디오를 어떻게 녹음합니까?

STT.ai은 무료인가요?

STT.ai의 녹음이 얼마나 정확한가요?

어떤 AI 모델을 사용할 수 있습니까?

자막과 캡션을 받을 수 있나요?

STT.ai이 다른 스피커를 감지합니까?

번역은 얼마나 걸립니까?

어떤 파일 형식이 지원됩니까?

내 오디오 데이터는 개인적으로 보관되나요?

API를 통해 번역에 액세스할 수 있습니까?

녹음을 편집할 수 있나요?

내 성적표를 어떻게 공유합니까?

어떤 URL과 플랫폼이 지원됩니까?