자유 AI 음성을 텍스트로

100개 이상의 언어로 오디오 및 비디오를 텍스트로 변환합니다. 10개 이상의 AI 모델. 스피커 감지. 가입이 필요하지 않습니다.

9.2K
번역
233.2K
번역된 분
100+
언어
70+
무료 도구

공개적으로 사용 가능한 오디오 및 비디오와 함께 작동합니다. DRM 보호 콘텐츠는 지원되지 않습니다.

향상된 업그레이드
Private transcript
녹음본과 채팅
Pro로 잠금 해제 →
파일을 여기에 드롭하거나 클릭하여 찾아보십시오.
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — 최대 2GB
향상된 업그레이드
Private transcript
녹음본과 채팅
Pro로 잠금 해제 →
향상된 업그레이드
녹음 중: 0:00
실시간 왁스 (즉각)
향상된 속삭임 (정확)
공개 링크: 24시간, 텍스트만 · 가입하기 7d + 오디오를위한 · 프로 개인 링크에 대한

실시간 음성 텍스트로. AI가 말하는 동안 자동으로 수정합니다.

먼저 마이크 테스트
❤️ STT.ai를 사랑하시나요? 친구들에게 알려주세요!
너는 너의 무료 녹음을 사용했어

무료로 가입하여 600분/월을 받거나 무제한 녹음을 위해 업그레이드하십시오.

10 무료 분/일 가입 시 600분 무료 신용카드 필요 없음 암호화됨
무료로 가입하세요 →
클라이언트 측 암호화 스토리지 — 브라우저에서 암호화되어 있어요 우리도 읽을 수 없어요 작동 방법 알아보기 →

전 세계 전문가들의 신뢰

STT.ai 작동 방식

정확한 번역을 위한 3단계

1. 업로드, 녹화 또는 URL 붙여넣기

오디오 또는 비디오 파일(MP3, WAV, MP4, 20+ 형식)을 드래그 앤 드롭하여 마이크로폰으로 실시간으로 녹음하거나 YouTube, Vimeo, TikTok 및 1,300+ 플랫폼에서 링크를 붙여넣을 수 있습니다.

2. AI는 모델의 선택에 따라 녹음

Whisper, NVIDIA Canary(정확도 1위), Moonshine 등 10개 이상의 AI 모델 중에서 선택할 수 있습니다. 100개 이상의 옵션 중에서 언어를 자동으로 감지합니다.

3. 내보내기, 공유 또는 통합

TXT, SRT, VTT, DOCX, JSON 또는 PDF로 다운로드하고 링크를 통해 공유하세요. API를 사용하여 앱에 기록을 통합하세요. 자막, 회의 메모, 팟캐스트 등에 완벽합니다.

100+
지원되는 언어
70+
무료 도구
1,300+
지원되는 플랫폼
7
내보내기 형식

개발자 우선 API

몇 분 안에 음성 변환을 앱에 통합하세요. 실시간 WebSocket 스트리밍을 지원하는 RESTful API.

REST + 웹소켓 — 파일 업로드 및 실시간 스트리밍
여러 모델 — Whisper, Canary, Enhanced 등
스피커 디아리제이션 — 누가 무엇을 말했는지 자동으로 감지
유연한 출력 — JSON, TXT, SRT, VTT와 단어 타임스탬프
import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

다른 음성에서 텍스트 서비스로 전환하시겠습니까?

녹음할 준비가 되셨나요?

첫 파일을 무료로 업로드하세요. 신용카드 없이, 가입 없이. 무료 플랜에서 월 600분.

번역 시작

자주 묻는 질문

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.