Informar dun erro / Solicitar unha funcionalidade

Free Speech to Text en liña

Converta a voz en texto coa transcrición con IA. Envíe ficheiros de son, grave co micrófono ou apegue un URL. Máis de 100 idiomas, máis de 10 modelos, máis do 98% de precisión.

Funciona con son e vídeo dispoñíbeis publicamente. Non se admiten contidos protexidos con DRM.

Actualización para mellorado

Private transcript

Conversa con transcrición

Desbloquear con Pro →

Solte aquí o ficheiro ou prema para examinar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ata 2 GB

Enviar varios ficheiros en lote con Pro

Actualización para mellorado

Private transcript

Conversa con transcrición

Desbloquear con Pro →

Actualización para mellorado

Fala a texto en tempo real. A IA corrixe automaticamente mentres fala — a precisión mellora coa duración da fala.

Probe primeiro o micrófono

10 minutos libres/día 600 min gratis con rexistro Sen tarxeta de crédito Cifrado

Inscríbete gratis →

How speech to text works →

1. Enviar a gravación de voz

Envíe un ficheiro de son ou vídeo, apegue un URL ou grave a voz co micrófono.

2. A IA converte a fala en texto

Escolla entre máis de 10 modelos de IA. Detección de falantes e detección automática de lingua incluídas.

3. Exportar a súa transcrición

Obteña en 6 formatos. Comparta ligazóns de transcrición con reprodución de son.

Formatos de entrada de voz soportados

MP3 WAV M4A FLAC OGG MP4 MKV MOV WebM AVI

Modelos de voz a texto

Escolla o modelo de IA que mellor se adapte ás súas necesidades — ou deixe que escollamos o mellor.

Fala a texto en máis de 100 idiomas

English Spanish French German Japanese Arabic Hindi Portuguese Russian Korean Todas as linguas →

Casos de uso de voz a texto

Listo para converter a voz en texto?

Comezar libre →

Preguntas frecuentes

A función Fala a texto (tamén chamada recoñecemento de fala ou ASR) converte automaticamente o son falado en palabras escritas. O STT.ai executa a gravación mediante un modelo de IA que escoita o son e saca un texto editábel con marcas de tempo e etiquetas do falante — non é preciso escribir.

Un modelo acústico mapea a forma de onda do son aos fonemas, e logo un modelo de linguaxe ensambla estes nos termos e puntuacións máis probables. O STT.ai fai isto na GPU con modelos como Whisper Large V3 e NVIDIA Canary, polo que unha gravación dunha hora normalmente faise en 2- 3 minutos.

Si. Cada visitante obtén 600 minutos gratis por mes sen necesidade de rexistrarse para o seu primeiro ficheiro. Os plans de pago comezan en $5/ mes e engaden ficheiros máis longos, transcricións privadas e procesamento prioritario.

On clean speech our best models reach 95-97% accuracy (a 3-5% Word Error Rate on benchmarks). Accuracy drops with background noise, heavy accents, crosstalk, or low-bitrate audio — using a decent microphone and a quiet room makes the biggest difference.

Yes. Speak into your microphone and STT.ai streams the transcript live via the live-transcription tool. You can also upload a finished recording for batch transcription if you don't need it word-by-word as you talk.

STT.ai recognizes 100+ languages and auto-detects the spoken language for most audio. You can also set the language manually for a small accuracy lift, and mixed-language recordings are handled by switching mid-clip.

Yes. Speaker diarization labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the editor. This works across every supported model and language.

STT.ai accepts 20+ formats including MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, and AVI. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Speech to text transcribes WHAT was said into words; voice recognition (speaker identification) determines WHO said it. STT.ai does both — transcription plus speaker diarization — but the terms describe different tasks.

Yes. Audio is processed and deleted by default. Pro plans add client-side encryption so transcripts are unreadable without your key, even to STT.ai, and your data is never used for model training without explicit opt-in.

Yes. STT.ai has a REST API with Python and Node.js SDKs plus an MCP server for Claude and Cursor. The free API tier includes 100 minutes/month, with per-second billing beyond that.

Yes. Every transcript opens in a built-in editor where you can fix misheard words, rename speakers, adjust timestamps, and add notes. Edits persist across every export format.

Free Speech to Text en liña

1. Enviar a gravación de voz

2. A IA converte a fala en texto

3. Exportar a súa transcrición

Formatos de entrada de voz soportados

Modelos de voz a texto

Fala a texto en máis de 100 idiomas

Casos de uso de voz a texto

Listo para converter a voz en texto?

Preguntas frecuentes

Que é a conversión de voz a texto?

Como funciona a conversión de voz a texto?

É libre o STT.ai de voz a texto?

How accurate is speech to text?

Can I convert speech to text in real time?

What languages does speech to text support?

Does speech to text identify who is speaking?

What audio and video formats can I convert to text?

Is speech to text the same as voice recognition?

Is my audio private when I use speech to text?

Can developers add speech to text via an API?

Can I edit the text after speech to text?