자유 AI 음성을 텍스트로
100개 이상의 언어로 오디오 및 비디오를 텍스트로 변환합니다. 10개 이상의 AI 모델. 스피커 감지. 가입이 필요하지 않습니다.
9.2K
번역
233.2K
번역된 분
100+
언어
70+
무료 도구
STT.ai 작동 방식
정확한 번역을 위한 3단계
1. 업로드, 녹화 또는 URL 붙여넣기
오디오 또는 비디오 파일(MP3, WAV, MP4, 20+ 형식)을 드래그 앤 드롭하여 마이크로폰으로 실시간으로 녹음하거나 YouTube, Vimeo, TikTok 및 1,300+ 플랫폼에서 링크를 붙여넣을 수 있습니다.
2. AI는 모델의 선택에 따라 녹음
Whisper, NVIDIA Canary(정확도 1위), Moonshine 등 10개 이상의 AI 모델 중에서 선택할 수 있습니다. 100개 이상의 옵션 중에서 언어를 자동으로 감지합니다.
3. 내보내기, 공유 또는 통합
TXT, SRT, VTT, DOCX, JSON 또는 PDF로 다운로드하고 링크를 통해 공유하세요. API를 사용하여 앱에 기록을 통합하세요. 자막, 회의 메모, 팟캐스트 등에 완벽합니다.
오디오 및 비디오에 필요한 모든 것
AI 기반의 70+ 무료 도구
100+
지원되는 언어
70+
무료 도구
1,300+
지원되는 플랫폼
7
내보내기 형식
개발자 우선 API
몇 분 안에 음성 변환을 앱에 통합하세요. 실시간 WebSocket 스트리밍을 지원하는 RESTful API.
REST + 웹소켓 — 파일 업로드 및 실시간 스트리밍
여러 모델 — Whisper, Canary, Enhanced 등
스피커 디아리제이션 — 누가 무엇을 말했는지 자동으로 감지
유연한 출력 — JSON, TXT, SRT, VTT와 단어 타임스탬프
import requests
response = requests.post(
"https://api.stt.ai/v1/transcribe",
headers={"Authorization": f"Bearer {API_KEY}"},
files={"file": open("meeting.mp3", "rb")},
data={
"model": "large-v3-turbo",
"language": "auto",
"diarize": "true",
"response_format": "json",
},
)
result = response.json()
for seg in result["segments"]:
print(f"{seg['speaker']}: {seg['text']}")
다른 음성에서 텍스트 서비스로 전환하시겠습니까?
자주 묻는 질문
speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.
Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.
speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.
speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.
Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.
Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.
Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.
speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.
Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.
Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.
Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.
Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.
STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.