Free AI Fala a texto

Transcríbase audio e vídeo a texto en máis de 100 idiomas. Máis de 10 modelos de IA. Detección de falantes. Non é preciso rexistrarse.

9.2K
transcricións
233.2K
minutos transcritos
100+
linguas
70+
ferramentas libres

Funciona con son e vídeo dispoñíbeis publicamente. Non se admiten contidos protexidos con DRM.

Actualización para mellorado
Transcrición privada
Conversa con transcrición
Desbloquear con Pro →
Solte aquí o ficheiro ou prema para examinar
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ata 2 GB
Actualización para mellorado
Transcrición privada
Conversa con transcrición
Desbloquear con Pro →
Actualización para mellorado
Gravación: 0:00
En tempo real Cera (instantánea)
Mellorado Sussurrar (preciso)
Ligazóns públicas: 24h, só texto · Inscríbete para 7d + audio · Pro para ligazóns privadas

Fala a texto en tempo real. A IA corrixe automaticamente mentres fala — a precisión mellora coa duración da fala.

Probe primeiro o micrófono
❤️ Amas STT.ai?
Esgotou as súas transcricións libres.

Inscríbase de balde para obter 600 minutos/mes, ou actualícese para obter transcricións ilimitadas.

10 minutos libres/día 600 min gratis con rexistro Sen tarxeta de crédito Cifrado
Inscríbete gratis →
Almacenamento cifrado do lado do cliente — As súas transcricións están cifradas no seu navegador. Nin sequera nós podemos lelas. Aprenda como funciona →

Confiado por profesionais de todo o mundo

Como funciona o STT.ai

Tres pasos para unha transcrición precisa

1. Enviar, Gravar ou Apegar URL

Arrastre e solte calquera ficheiro de son ou vídeo (MP3, WAV, MP4 e máis de 20 formatos). Grave co micrófono en tempo real. Ou apegue unha ligazón de YouTube, Vimeo, TikTok e máis de 1300 plataformas.

2. A IA transcribe coa súa elección de modelo

Escolla entre máis de 10 modelos de IA, incluíndo Whisper, NVIDIA Canary (#1 en precisión) e Moonshine. Detecte automaticamente a linguaxe entre máis de 100 opcións. A diarización do falante identifica quen dixo que.

3. Exportar, compartir ou integrar

Obteña como TXT, SRT, VTT, DOCX, JSON ou PDF. Compartir mediante ligazón. Use a nosa API para integrar a transcrición no seu programa. Perfecto para subtítulos, notas de reunións, podcasts e máis.

100+
Linguas soportadas
70+
Ferramentas libres
1,300+
Plataformas soportadas
7
Formatos de exportación

API de desenvolvemento

Integre a voz a texto na súa aplicación en minutos. API RESTful con transmisión WebSocket en tempo real.

REST + WebSocket — Envio de ficheiros e transmisión en tempo real
Múltiplos modelos — Whisper, Canary, mellorado e máis
Diarización do falante — Detectar automaticamente quen dixo que
Saída flexible — JSON, TXT, SRT, VTT con marcas de tempo de palabra
import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

Listo para transcreber?

Envíe o seu primeiro ficheiro de balde. Sen tarxeta de crédito, sen rexistro. 600 minutos por mes no plan gratuíto.

Comezar a transcrición

Preguntas frecuentes

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.