Free Speech to Text en liña
Converta a voz en texto coa transcrición con IA. Envíe ficheiros de son, grave co micrófono ou apegue un URL. Máis de 100 idiomas, máis de 10 modelos, máis do 98% de precisión.
1. Enviar a gravación de voz
Envíe un ficheiro de son ou vídeo, apegue un URL ou grave a voz co micrófono.
2. A IA converte a fala en texto
Escolla entre máis de 10 modelos de IA. Detección de falantes e detección automática de lingua incluídas.
3. Exportar a súa transcrición
Obteña en 6 formatos. Comparta ligazóns de transcrición con reprodución de son.
Modelos de voz a texto
Escolla o modelo de IA que mellor se adapte ás súas necesidades — ou deixe que escollamos o mellor.
Fala a texto en máis de 100 idiomas
Listo para converter a voz en texto?
Comezar libre →Preguntas frecuentes
A función Fala a texto (tamén chamada recoñecemento de fala ou ASR) converte automaticamente o son falado en palabras escritas. O STT.ai executa a gravación mediante un modelo de IA que escoita o son e saca un texto editábel con marcas de tempo e etiquetas do falante — non é preciso escribir.
Un modelo acústico mapea a forma de onda do son aos fonemas, e logo un modelo de linguaxe ensambla estes nos termos e puntuacións máis probables. O STT.ai fai isto na GPU con modelos como Whisper Large V3 e NVIDIA Canary, polo que unha gravación dunha hora normalmente faise en 2- 3 minutos.
Si. Cada visitante obtén 600 minutos gratis por mes sen necesidade de rexistrarse para o seu primeiro ficheiro. Os plans de pago comezan en $5/ mes e engaden ficheiros máis longos, transcricións privadas e procesamento prioritario.
On clean speech our best models reach 95-97% accuracy (a 3-5% Word Error Rate on benchmarks). Accuracy drops with background noise, heavy accents, crosstalk, or low-bitrate audio — using a decent microphone and a quiet room makes the biggest difference.
Yes. Speak into your microphone and STT.ai streams the transcript live via the live-transcription tool. You can also upload a finished recording for batch transcription if you don't need it word-by-word as you talk.
STT.ai recognizes 100+ languages and auto-detects the spoken language for most audio. You can also set the language manually for a small accuracy lift, and mixed-language recordings are handled by switching mid-clip.
Yes. Speaker diarization labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the editor. This works across every supported model and language.
STT.ai accepts 20+ formats including MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, and AVI. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.
Speech to text transcribes WHAT was said into words; voice recognition (speaker identification) determines WHO said it. STT.ai does both — transcription plus speaker diarization — but the terms describe different tasks.
Yes. Audio is processed and deleted by default. Pro plans add client-side encryption so transcripts are unreadable without your key, even to STT.ai, and your data is never used for model training without explicit opt-in.
Yes. STT.ai has a REST API with Python and Node.js SDKs plus an MCP server for Claude and Cursor. The free API tier includes 100 minutes/month, with per-second billing beyond that.
Yes. Every transcript opens in a built-in editor where you can fix misheard words, rename speakers, adjust timestamps, and add notes. Edits persist across every export format.