Free AI Từ nói sang văn bản

Phiên dịch âm thanh và video thành văn bản bằng hơn 100 ngôn ngữ. 10+ mô hình AI. Kiểm tra người nói. Không cần đăng ký.

9.2K
bản dịch
233.2K
phút đã phiên âm
100+
ngôn ngữ
70+
công cụ miễn phí

Làm việc với âm thanh và video công cộng. Không hỗ trợ nội dung được bảo vệ DRM.

Tăng cấp cho nâng cấp
Private transcript
Trò chuyện với bản ghi chép
Mở khóa với Pro →
Thả tập tin vào đây hoặc nhấn để duyệt
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — lên đến 2GB
Tăng cấp cho nâng cấp
Private transcript
Trò chuyện với bản ghi chép
Mở khóa với Pro →
Tăng cấp cho nâng cấp
Ghi âm: 0:00
Thời gian thực Sáp (trong giây lát)
Tăng cường Tiếng thì thầm (đúng)
Liên kết công cộng: 24h, chỉ văn bản · Đăng ký cho 7d + âm thanh · Tốt cho liên kết riêng

Tự động sửa lỗi khi bạn nói — độ chính xác tăng lên khi nói lâu hơn.

Kiểm tra micro đầu tiên
❤️ Cảm ơn bạn đã ghé thăm STT.ai.
Anh đã dùng bản dịch miễn phí của mình.

Đăng ký miễn phí để nhận 600 phút/tháng, hoặc nâng cấp để có phiên dịch không giới hạn.

10 phút miễn phí/ngày 600 phút miễn phí với đăng ký Không có thẻ tín dụng Đã mã hóa
Đăng ký miễn phí →
Bộ nhớ được mã hóa phía máy khách — Bản ghi của anh được mã hóa trong trình duyệt của anh, ngay cả chúng tôi cũng không thể đọc được. Hãy học cách làm việc →

Được các chuyên gia tin tưởng trên toàn thế giới

STT.ai hoạt động như thế nào

Ba bước để phiên âm chính xác

1. Tải lên, ghi, hoặc dán URL

Kéo và thả bất kỳ tập tin âm thanh hay video nào (MP3, WAV, MP4, và hơn 20 định dạng). Ghi âm từ micro của bạn trong thời gian thực. Hoặc dán một liên kết từ YouTube, Vimeo, TikTok, và hơn 1.300 nền tảng.

2. AI Transcribes with Your Choice of Model

Chọn từ 10+ mô hình AI bao gồm Whisper, NVIDIA Canary (# chính xác số 1), và Moonshine. Tự động phát hiện ngôn ngữ từ 100+ tùy chọn. Đánh dấu người nói để xác định ai nói gì.

3. Xuất, chia sẻ, hoặc tích hợp

Tải về dạng TXT, SRT, VTT, DOCX, JSON, hoặc PDF. Chia sẻ qua liên kết. Dùng API của chúng tôi để tích hợp phiên dịch vào ứng dụng của bạn. Tốt cho phụ đề, ghi chú cuộc họp, podcast, và nhiều hơn nữa.

100+
Ngôn ngữ được hỗ trợ
70+
Công cụ miễn phí
1,300+
Nền tảng được hỗ trợ
7
Định dạng xuất

API của nhà phát triển

Tạo và chia sẻ các video trên YouTube. ^ “Review: The RESTful API with WebSocket streaming”.

REST + WebSocket — Tải lên tập tin và truyền trực tiếp
Nhiều mô hình — Whisper, Canary, Cải tiến và nhiều hơn
Tự động — Tự động phát hiện ai nói gì
Xuất linh hoạt — JSON, TXT, SRT, VTT với dấu thời gian từ
import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

Đang chuyển từ dịch vụ nói khác sang dịch vụ văn bản?

Sẵn sàng để ghi lại chưa?

Tải lên file đầu tiên miễn phí, không cần thẻ tín dụng, không cần đăng ký, 600 phút mỗi tháng với gói miễn phí.

Bắt đầu phiên âm

Câu hỏi thường gặp

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.