무료 음성 텍스트 온라인

AI 기반의 음성 변환 기능으로 음성을 텍스트로 변환하세요. 오디오 파일을 업로드하거나 마이크로폰에서 녹음하거나 URL을 붙여넣으세요. 100개 이상의 언어, 10개 이상의 모델, 98% 이상의 정확도.

공개적으로 사용 가능한 오디오 및 비디오와 함께 작동합니다. DRM 보호 콘텐츠는 지원되지 않습니다.

향상된 업그레이드
Private transcript
녹음본과 채팅
Pro로 잠금 해제 →
파일을 여기에 드롭하거나 클릭하여 찾아보십시오.
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 최대 2GB
향상된 업그레이드
Private transcript
녹음본과 채팅
Pro로 잠금 해제 →
향상된 업그레이드
녹음 중: 0:00
실시간 왁스 (즉각)
향상된 속삭임 (정확)
공개 링크: 24시간, 텍스트만 · 가입하기 7d + 오디오를위한 · 프로 개인 링크에 대한

실시간 음성 텍스트로. AI가 말하는 동안 자동으로 수정합니다.

먼저 마이크 테스트
❤️ STT.ai를 사랑하시나요? 친구들에게 알려주세요!
너는 너의 무료 녹음을 사용했어

무료로 가입하여 600분/월을 받거나 무제한 녹음을 위해 업그레이드하십시오.

10 무료 분/일 가입 시 600분 무료 신용카드 필요 없음 암호화됨
무료로 가입하세요 →

1. 음성 녹음 업로드

오디오 또는 비디오 파일을 업로드하거나, URL을 붙여넣거나, 마이크로 녹음하세요.

2. AI가 음성을 텍스트로 변환

10개 이상의 AI 모델 중 선택. 화자 감지 및 언어 자동 감지 포함.

3. 트랜스크립트 내보내기

6가지 형식으로 다운로드. 오디오 재생이 포함된 트랜스크립트 링크를 공유하세요.

지원되는 음성 입력 형식

음성-텍스트 변환 모델

필요에 맞는 AI 모델을 선택하세요 — 또는 최적의 모델을 선택해 드립니다.

100개 이상 언어의 음성-텍스트 변환

음성-텍스트 변환 활용 사례

음성을 텍스트로 변환할 준비가 되셨나요?

무료로 시작 →

자주 묻는 질문

음성 텍스트(음성 인식 또는 ASR)는 말하는 오디오를 쓰는 단어로 자동으로 변환합니다. STT.ai은 오디오를 듣고 타임스탬프 및 발음기 레이블이 포함된 편집 가능한 텍스트를 출력하는 AI 모델을 통해 녹음을 실행합니다.

음향 모델은 음성에 음파형을 매핑한 다음 언어 모델은 그것들을 가장 가능성이 높은 단어와 구두점으로 조립합니다. STT.ai은 Whisper Large V3 및 NVIDIA Canary와 같은 모델을 사용하여 GPU에서 이 작업을 수행하므로 1시간의 녹음은 보통 2-3분 안에 완료됩니다.

네, 모든 방문자는 첫 번째 파일에 가입하지 않고 월 600분의 무료 시간을 얻을 수 있습니다. 유료 플랜은 월 $5부터 시작하며 더 긴 파일, 개인 전문 및 우선 처리를 추가합니다.

On clean speech our best models reach 95-97% accuracy (a 3-5% Word Error Rate on benchmarks). Accuracy drops with background noise, heavy accents, crosstalk, or low-bitrate audio — using a decent microphone and a quiet room makes the biggest difference.

Yes. Speak into your microphone and STT.ai streams the transcript live via the live-transcription tool. You can also upload a finished recording for batch transcription if you don't need it word-by-word as you talk.

STT.ai recognizes 100+ languages and auto-detects the spoken language for most audio. You can also set the language manually for a small accuracy lift, and mixed-language recordings are handled by switching mid-clip.

Yes. Speaker diarization labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the editor. This works across every supported model and language.

STT.ai accepts 20+ formats including MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, and AVI. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Speech to text transcribes WHAT was said into words; voice recognition (speaker identification) determines WHO said it. STT.ai does both — transcription plus speaker diarization — but the terms describe different tasks.

Yes. Audio is processed and deleted by default. Pro plans add client-side encryption so transcripts are unreadable without your key, even to STT.ai, and your data is never used for model training without explicit opt-in.

Yes. STT.ai has a REST API with Python and Node.js SDKs plus an MCP server for Claude and Cursor. The free API tier includes 100 minutes/month, with per-second billing beyond that.

Yes. Every transcript opens in a built-in editor where you can fix misheard words, rename speakers, adjust timestamps, and add notes. Edits persist across every export format.