Bộ nhớ được mã hóa phía máy khách — Bản ghi của anh được mã hóa trong trình duyệt của anh, ngay cả chúng tôi cũng không thể đọc được. Hãy học cách làm việc →

Được các chuyên gia tin tưởng trên toàn thế giới

Podcasters Báo chí Nghiên cứu Sinh viên Nhóm pháp lý Y tế

Mô hình chuyển từ nói sang văn bản

Chọn bộ xử lý âm thanh tốt nhất

Xem tất cả các mẫu →

STT.ai hoạt động như thế nào

Ba bước để phiên âm chính xác

1. Tải lên, ghi, hoặc dán URL

Kéo và thả bất kỳ tập tin âm thanh hay video nào (MP3, WAV, MP4, và hơn 20 định dạng). Ghi âm từ micro của bạn trong thời gian thực. Hoặc dán một liên kết từ YouTube, Vimeo, TikTok, và hơn 1.300 nền tảng.

2. AI Transcribes with Your Choice of Model

Chọn từ 10+ mô hình AI bao gồm Whisper, NVIDIA Canary (# chính xác số 1), và Moonshine. Tự động phát hiện ngôn ngữ từ 100+ tùy chọn. Đánh dấu người nói để xác định ai nói gì.

3. Xuất, chia sẻ, hoặc tích hợp

Tải về dạng TXT, SRT, VTT, DOCX, JSON, hoặc PDF. Chia sẻ qua liên kết. Dùng API của chúng tôi để tích hợp phiên dịch vào ứng dụng của bạn. Tốt cho phụ đề, ghi chú cuộc họp, podcast, và nhiều hơn nữa.

Tình huống sử dụng phổ biến

Tất cả trường hợp sử dụng →

Hội nghị

Ghi chú cuộc họp và mục hành động

Podcast

& Hiện ghi chú

Tựa đề

SRT, VTT và nhiều hơn

Y tế

Bản dịch an toàn

Tập đọc

Ghi chú lớp học và hướng dẫn học tậpName

Luật

Tòa án

Mọi thứ bạn cần cho âm thanh và hình ảnhName

70+ công cụ miễn phí được hỗ trợ bởi AI

Từ nói sang văn bản

Transcript tập tin âm thanh và video

Phiên âm trực tiếp

Phiên âm micro thời gian thực

Bản dịch YouTube

Xuất phụ đề từ bất kỳ video nào

Bộ biên tập phụ đề

Sửa tập tin SRT & VTT trực tuyến

Bỏ nhiễu

Xoá tiếng ồn nền khỏi âm thanh

Biến đổi âm thanhName

MP3, WAV, FLAC, OGG, AAC và nhiều hơn nữa

Bộ xóa giọng hát

Điều khiển giọng nói

Bộ cắt âm thanhName

Cắt và cắt gọt tập tin âm thanh

Biến đổi tiêu đề

Định dạng SRT, VTT, SSA, SBV

Bản ghi nhớ cuộc họp

Nhập & tổng hợp

Văn bản sang Giọng nóiComment

Chuyển văn bản thành giọng nói tự nhiên

Trình dịch phụ đề

Dịch phụ đề sang hơn 100 ngôn ngữ

Xem tất cả 70+ công cụ →

100+

Ngôn ngữ được hỗ trợ

70+

Công cụ miễn phí

1,300+

Nền tảng được hỗ trợ

Định dạng xuất

API của nhà phát triển

Tạo và chia sẻ các video trên YouTube. ^ “Review: The RESTful API with WebSocket streaming”.

REST + WebSocket — Tải lên tập tin và truyền trực tiếp

Nhiều mô hình — Whisper, Canary, Cải tiến và nhiều hơn

Tự động — Tự động phát hiện ai nói gì

Xuất linh hoạt — JSON, TXT, SRT, VTT với dấu thời gian từ

Tài liệu API Sân chơiName

import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

import fs from "fs";

const form = new FormData();
form.append("file", fs.createReadStream("meeting.mp3"));
form.append("model", "large-v3-turbo");
form.append("language", "auto");
form.append("diarize", "true");

const res = await fetch("https://api.stt.ai/v1/transcribe", {
  method: "POST",
  headers: { Authorization: `Bearer ${API_KEY}` },
  body: form,
});

const { segments } = await res.json();
segments.forEach(s =>
  console.log(`${s.speaker}: ${s.text}`)
);

Đang chuyển từ dịch vụ nói khác sang dịch vụ văn bản?

STT.ai vs Otter.ai STT.ai vs TurboScribe STT.ai vs Fireflies STT.ai vs Rev So sánh tất cả →

Đơn giản, giá cả minh bạch

Bắt đầu tự do, tăng dần khi bạn lớn lên.

Tự do

$0/1 tháng

600 phút/ tháng

5 ngôn ngữ
Xuất TXT & SRT
Truy cập API

Bắt đầu

$9/1 tháng

3, 000 phút/ tháng

100+ ngôn ngữ
Tất cả các mô hình AI
Tất cả định dạng xuất

ĐẦU TƯ NHẤT

Tốt

$19/1 tháng

7,500 phút/tháng

Bản ghi riêng
Ghế không giới hạn
Xử lý ưu tiên

Công việc

$39/1 tháng

20, 000 phút/ tháng

Mọi thứ trong Pro
Nhà kho 50K min
Thảo luận AI không giới hạn

Xem tất cả các kế hoạch và giá →

Ngôn ngữ được hỗ trợ

Tất cả 100+ ngôn ngữ →

English Spanish French German Japanese Chinese Arabic Hindi Portuguese Russian Korean Italian Turkish Dutch Polish +85 nữa

Sẵn sàng để ghi lại chưa?

Tải lên file đầu tiên miễn phí, không cần thẻ tín dụng, không cần đăng ký, 600 phút mỗi tháng với gói miễn phí.

Bắt đầu phiên âm

Câu hỏi thường gặp

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.

Free AI Từ nói sang văn bản

Mô hình chuyển từ nói sang văn bản

STT.ai hoạt động như thế nào

1. Tải lên, ghi, hoặc dán URL

2. AI Transcribes with Your Choice of Model

3. Xuất, chia sẻ, hoặc tích hợp

Tình huống sử dụng phổ biến

Mọi thứ bạn cần cho âm thanh và hình ảnhName

API của nhà phát triển

Đơn giản, giá cả minh bạch

Ngôn ngữ được hỗ trợ

Sẵn sàng để ghi lại chưa?

Câu hỏi thường gặp

How does speech to text work on STT.ai?

Is speech to text free?

How accurate is speech to text?

What AI models can I use for speech to text?

Can I get subtitles from speech to text?

Does speech to text detect different speakers?

How long does speech to text take?

What input formats does speech to text support?

Is my audio private when I use speech to text?

Is there a speech to text API?

Can I edit a speech to text transcript after?

How do I share what speech to text produces?

What other platforms work beyond speech to text?