Free Speech to Text en liña

Converta a voz en texto coa transcrición con IA. Envíe ficheiros de son, grave co micrófono ou apegue un URL. Máis de 100 idiomas, máis de 10 modelos, máis do 98% de precisión.

Funciona con son e vídeo dispoñíbeis publicamente. Non se admiten contidos protexidos con DRM.

Actualización para mellorado
Private transcript
Conversa con transcrición
Desbloquear con Pro →
Solte aquí o ficheiro ou prema para examinar
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ata 2 GB
Actualización para mellorado
Private transcript
Conversa con transcrición
Desbloquear con Pro →
Actualización para mellorado
Gravación: 0:00
En tempo real Cera (instantánea)
Mellorado Sussurrar (preciso)
Ligazóns públicas: 24h, só texto · Inscríbete para 7d + audio · Pro para ligazóns privadas

Fala a texto en tempo real. A IA corrixe automaticamente mentres fala — a precisión mellora coa duración da fala.

Probe primeiro o micrófono
❤️ Amas STT.ai?
Esgotou as súas transcricións libres.

Inscríbase de balde para obter 600 minutos/mes, ou actualícese para obter transcricións ilimitadas.

10 minutos libres/día 600 min gratis con rexistro Sen tarxeta de crédito Cifrado
Inscríbete gratis →

1. Enviar a gravación de voz

Envíe un ficheiro de son ou vídeo, apegue un URL ou grave a voz co micrófono.

2. A IA converte a fala en texto

Escolla entre máis de 10 modelos de IA. Detección de falantes e detección automática de lingua incluídas.

3. Exportar a súa transcrición

Obteña en 6 formatos. Comparta ligazóns de transcrición con reprodución de son.

Formatos de entrada de voz soportados

Casos de uso de voz a texto

Listo para converter a voz en texto?

Comezar libre →

Preguntas frecuentes

A función Fala a texto (tamén chamada recoñecemento de fala ou ASR) converte automaticamente o son falado en palabras escritas. O STT.ai executa a gravación mediante un modelo de IA que escoita o son e saca un texto editábel con marcas de tempo e etiquetas do falante — non é preciso escribir.

Un modelo acústico mapea a forma de onda do son aos fonemas, e logo un modelo de linguaxe ensambla estes nos termos e puntuacións máis probables. O STT.ai fai isto na GPU con modelos como Whisper Large V3 e NVIDIA Canary, polo que unha gravación dunha hora normalmente faise en 2- 3 minutos.

Si. Cada visitante obtén 600 minutos gratis por mes sen necesidade de rexistrarse para o seu primeiro ficheiro. Os plans de pago comezan en $5/ mes e engaden ficheiros máis longos, transcricións privadas e procesamento prioritario.

On clean speech our best models reach 95-97% accuracy (a 3-5% Word Error Rate on benchmarks). Accuracy drops with background noise, heavy accents, crosstalk, or low-bitrate audio — using a decent microphone and a quiet room makes the biggest difference.

Yes. Speak into your microphone and STT.ai streams the transcript live via the live-transcription tool. You can also upload a finished recording for batch transcription if you don't need it word-by-word as you talk.

STT.ai recognizes 100+ languages and auto-detects the spoken language for most audio. You can also set the language manually for a small accuracy lift, and mixed-language recordings are handled by switching mid-clip.

Yes. Speaker diarization labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the editor. This works across every supported model and language.

STT.ai accepts 20+ formats including MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, and AVI. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Speech to text transcribes WHAT was said into words; voice recognition (speaker identification) determines WHO said it. STT.ai does both — transcription plus speaker diarization — but the terms describe different tasks.

Yes. Audio is processed and deleted by default. Pro plans add client-side encryption so transcripts are unreadable without your key, even to STT.ai, and your data is never used for model training without explicit opt-in.

Yes. STT.ai has a REST API with Python and Node.js SDKs plus an MCP server for Claude and Cursor. The free API tier includes 100 minutes/month, with per-second billing beyond that.

Yes. Every transcript opens in a built-in editor where you can fix misheard words, rename speakers, adjust timestamps, and add notes. Edits persist across every export format.