Transcribe with STT.ai Enhanced
3.2%
WER
100
Languages
160.0x
Speed
Proprietary
License
About STT.ai Enhanced
✦ Unlock Enhanced Model
Get access to our most accurate model with any paid plan. 3.2% WER, 160x real-time speed, 100+ languages.
View Plans →Model Info
- ProviderSTT.ai
- Architecture-
- LicenseProprietary
- UpdatedMar 2026
Preguntas frecuentes
STT.ai Enhanced é un modelo de voz a texto de STT.ai. STT.ai aloxa STT.ai Enhanced na nosa infraestrutura de GPU para que poida usalo sen ter que aprovisionar o seu propio hardware: envíe son ou vídeo e escolla STT.ai Enhanced no selector de modelos.
En probas estándar, STT.ai Enhanced alcanza unha taxa de erro de palabra do 3.2%. A precisión real depende da calidade do son, do acento e da linguaxe; para gravacións ruidosas ou acentuadas, espere uns poucos puntos porcentuais máis altos de WER.
STT.ai Enhanced é un modelo premium — incluído con calquera plan STT.ai de pago a partir de $5/ mes. Os usuarios gratuítos poden previsualizar STT.ai Enhanced en clips curtos; os ficheiros máis longos requiren un plan activo.
STT.ai Enhanced distribúese baixo Proprietary. A versión aloxada de STT.ai xestiona a conformidade da licenza por vostede, polo que o uso comercial a través do noso servizo é sinxelo.
STT.ai Enhanced soporta 100 linguas. A detección automática escolle a lingua correcta para a maioría do son; tamén pode especificala manualmente para un pequeno aumento de precisión.
STT.ai Enhanced procesa o son a uns 160.0x en tempo real nas nosas GPU. Un ficheiro de son de 1 hora remata en menos de 1 minutos; os ficheiros máis longos enfróntanse e avísanse por correo electrónico cando rematan.
STT.ai Enhanced ten parámetros 1.5B. Os modelos maiores tenden a ser máis precisos pero máis lentos; STT.ai aloxa STT.ai Enhanced na GPU polo que a contaxe de parámetros non afecta ao rendemento do lado do cliente.
STT.ai Enhanced acepta todos os formatos soportados por STT.ai: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída como TXT, SRT, VTT, DOCX, JSON ou PDF.
Si. A diarización do falante corre xunto co STT.ai Enhanced para cada transcrición - cada falante está etiquetado e pode mudarlle o nome no editor despois.
Si. STT.ai Enhanced executase na nosa infraestrutura privada — o son é procesado e borrado por omisión. Pro+ engade cifrado do lado do cliente para que as transcricións sexan ilegibles sen a súa chave, e Private Cloud permítelle aloxar STT.ai Enhanced completamente na súa propia VPC.
Use a ferramenta compare- stt para executar o STT.ai Enhanced contra calquera outro modelo soportado no mesmo son — verá o WER, o número de segmentos, as etiquetas dos altofalantes e as puntuacións de confianza lado a lado. A comparación STT.ai Enhanced vs Whisper Large V3 é a máis común.
Si. Especifique « stt-ai-enhanced » como parámetro do modelo no punto final / v1/ transcribe. Os SDK de Python e Node. js inclúen exemplos de STT.ai Enhanced. O nivel de API gratuíto inclúe 100 minutos/ mes.
A licenza para STT.ai Enhanced establécea STT.ai; o autoaloxamento depende dos seus termos. O servizo aloxado de STT.ai executa STT.ai Enhanced nunha GPU xestionada, polo que non precisa xestionar esa integración.