Clonador de voz de IA
Clone calquera voz a partir dun clip de son curto. Envíe 3- 10 segundos de fala, escriba o seu texto e xere son coa mesma voz.
Clone: provide a 3–10s reference clip. Preset: pick from bundled multilingual voices.
Enviar o son de referencia de voz
MP3, WAV, M4A, FLAC
VibeVoice presets cover English, German, French, Japanese, Korean, Polish, Portuguese, Spanish, Italian, Dutch.
Máx. 500 caracteres
0/500
Usa 1 crédito por xeración
Como funciona
1
Enviar a referencia
Proporcione 3- 10 segundos de fala clara da voz que queira clonar.
2
A IA analiza a voz
F5- TTS extrae as características da voz: ton, tonalidade, estilo de fala, acento.
3
Xerar voz
O texto é falado coa voz clonada. Obteña o resultado como WAV.
A clonación de voz é só para uso persoal e autorizado. Non clone voces sen o consentimento do falante.
Preguntas frecuentes
Envíe o seu ficheiro de son ou vídeo a STT.ai, apegue un URL ou grave en directo. Escolla o seu modelo de IA preferido e prema en Transcrición. A maioría dos ficheiros recóllense en menos de 5 minutos. Exporte como TXT, SRT, VTT, DOCX, JSON ou PDF.
Si — STT.ai dá a cada visitante 600 minutos/ mes de balde sen necesidade de rexistrarse para o seu primeiro ficheiro. Os plans de pago a partir de $5/ mes desbloquean ficheiros máis longos, transcricións privadas e filas prioritarias.
A precisión depende do modelo e da calidade do son. Os nosos mellores modelos acadan unha taxa de erro de palabra do 3- 5% nas probas de referencia — 95- 97% de precisión na fala clara. A ferramenta compare- stt permítelle executar varios modelos no mesmo ficheiro e escoller o mellor.
STT.ai ofrece máis de 10 modelos: STT.ai Enhanced (o noso máis preciso), Whisper Large V3 (99 linguas), NVIDIA Canary (# 1 WER nos lang soportados), Whisper Turbo (rápido), Moonshine (ligeiro) e máis. Cada páxina de modelo ten detalles.
Si. Exporte a súa transcrición como ficheiros de subtítulos SRT ou VTT — funcionan con YouTube, Vimeo, TikTok, VLC e todos os principais reprodutores de vídeo. A ferramenta de gravación de subtítulos sobrepónos ao vídeo como subtítulos físicos.
Si. A diarización de oradores etiqueta automaticamente cada voz (Orador 1, Orador 2,...) e pode mudarlles o nome no editor. Funciona en todos os modelos e linguaxes.
A maioría dos ficheiros transcríbense en menos de 5 minutos. Un ficheiro de son de 1 hora normalmente remata en 2- 3 minutos cos nosos modelos máis rápidos. A velocidade depende da escolla do modelo e da carga actual.
STT.ai admite máis de 20 formatos de entrada: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída a TXT, SRT, VTT, DOCX, JSON e PDF.
Si. Os ficheiros de son son procesados e eliminados por omisión. Os plans Pro engadirán cifrado do lado do cliente - mesmo se a nosa base de datos é violada, as súas transcricións son ilegibles sen a súa chave. Os datos nunca se empregan para adestramento de modelos sen a súa aceptación explícita.
Si. STT.ai ofrece unha API REST con Python e Node. js SDKs, ademais dun servidor MCP para Claude e Cursor. O nivel de API gratuíto inclúe 100 minutos/ mes.
Si. Cada transcrición ábrese no editor incorporado onde pode corrixir palabras, mudar o nome dos oradores, axustar os selos de data e hora e engadir notas. Todos os cambios gárdanse automaticamente.
Cada transcrición obtén un URL único compartible. Exportar a DOCX ou PDF para correo electrónico. Os plans Pro engadirán ligazóns permanentes e protexidas por contrasinal, útiles para o traballo do cliente.
STT.ai soporta máis de 1300 plataformas, incluíndo YouTube, Vimeo, TikTok, SoundCloud e outras. A transcrición de URL só funciona con contidos dispoñibles publicamente; non se poden transcreber fontes protexidas por DRM.