Informar dun erro / Solicitar unha funcionalidade

Transcrever con SenseVoice

Name: SenseVoice
Author: FunAudioLLM

Funciona con son e vídeo dispoñíbeis publicamente. Non se admiten contidos protexidos con DRM.

Actualización para mellorado

Transcrición privada

Conversa con transcrición

Desbloquear con Pro →

Solte aquí o ficheiro ou prema para examinar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ata 2 GB

Enviar varios ficheiros en lote con Pro

Actualización para mellorado

Transcrición privada

Conversa con transcrición

Desbloquear con Pro →

Actualización para mellorado

Fala a texto en tempo real. A IA corrixe automaticamente mentres fala — a precisión mellora coa duración da fala.

Probe primeiro o micrófono

10 minutos libres/día 600 min gratis con rexistro Sen tarxeta de crédito Cifrado

Inscríbete gratis →

5.5%

WER

Linguas

50.0x

Velocidade

MIT

Licenza

Acerca de SenseVoice

SenseVoice é un modelo de base de fala de FunAudioLLM que vai máis alá da transcrición. Soporta máis de 50 linguas e inclúe capacidades para o recoñecemento de emocións, detección de eventos de son e normalización inversa de texto nun só modelo.

Linguas soportadas SenseVoice

Inglés

Español

Francés

Alemán

Chinés

Xaponés

Coreano

Portugués

Árabe

Hindi

Ruso

Italiano

Neerlandés

Turco

Polaco

Sueco

Indonesio

Tailandés

Vietnamita

Checo

Grego

Romanés

Húngaro

Hebreo

Dinamarqués

Finés

Noruegués

Ucraíno

Malaio

Bengalí

Información do modelo

ProvedorFunAudioLLM
Arquitectura-
LicenzaMIT
ActualizadoMar 2026

Modelos relacionados

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Preguntas frecuentes

SenseVoice é un modelo de voz a texto de FunAudioLLM. STT.ai aloxa SenseVoice na nosa infraestrutura de GPU para que poida usalo sen ter que aprovisionar o seu propio hardware: envíe son ou vídeo e escolla SenseVoice no selector de modelos.

En probas estándar, SenseVoice alcanza unha taxa de erro de palabra do 5.5%. A precisión real depende da calidade do son, do acento e da linguaxe; para gravacións ruidosas ou acentuadas, espere uns poucos puntos porcentuais máis altos de WER.

SenseVoice executa no nivel gratuíto de STT.ai - cada visitante obtén 600 minutos para comezar sen custo. Os plans de pago engaden límites máis longos por ficheiro, transcricións privadas e filas de prioridade.

SenseVoice é publicado baixo MIT, unha licenza permisiva de código aberto. Pode aloxar SenseVoice no seu propio hardware ou usar a nosa versión aloxada, ambas as dúas son comercialmente utilizables.

SenseVoice soporta 50 linguas. A detección automática escolle a lingua correcta para a maioría do son; tamén pode especificala manualmente para un pequeno aumento de precisión.

SenseVoice procesa o son a uns 50.0x en tempo real nas nosas GPU. Un ficheiro de son de 1 hora remata en menos de 1 minutos; os ficheiros máis longos enfróntanse e avísanse por correo electrónico cando rematan.

SenseVoice ten parámetros 234M. Os modelos maiores tenden a ser máis precisos pero máis lentos; STT.ai aloxa SenseVoice na GPU polo que a contaxe de parámetros non afecta ao rendemento do lado do cliente.

SenseVoice acepta todos os formatos soportados por STT.ai: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída como TXT, SRT, VTT, DOCX, JSON ou PDF.

Si. A diarización do falante corre xunto co SenseVoice para cada transcrición - cada falante está etiquetado e pode mudarlle o nome no editor despois.

Si. SenseVoice executase no noso entorno xestionado — o son é procesado e borrado por omisión e nunca é usado para adestramento sen unha opción explícita. Os plans Pro engadirán cifrado do lado do cliente para as transcricións en repouso.

Use a ferramenta compare- stt para executar o SenseVoice contra calquera outro modelo soportado no mesmo son — verá o WER, o número de segmentos, as etiquetas dos altofalantes e as puntuacións de confianza lado a lado. A comparación SenseVoice vs Whisper Large V3 é a máis común.

Si. Especifique « sensevoice » como parámetro do modelo no punto final / v1/ transcribe. Os SDK de Python e Node. js inclúen exemplos de SenseVoice. O nivel de API gratuíto inclúe 100 minutos/ mes.

Si. Como SenseVoice ten licenza MIT, pode aloxalo vostede mesmo. A páxina de código aberto de STT.ai lista o repositorio e os pesos do proxecto. A maioría dos equipos de produción usan a nosa versión aloxada para saltar a procura de GPU, intercambios de modelos e operacións.

Transcrever con SenseVoice

Acerca de SenseVoice

Linguas soportadas SenseVoice

Información do modelo

Modelos relacionados

Preguntas frecuentes

Que é SenseVoice?

Que tan exacto é SenseVoice?

É libre o SenseVoice?

Que licenza usa SenseVoice?

Cantos idiomas soporta SenseVoice?

Que tan rápido é SenseVoice?

Canto é grande o modelo SenseVoice?

Que formatos de son pode transcribir o SenseVoice?

O SenseVoice detecta varios altofalantes?

Os meus datos son privados cando uso SenseVoice?

Como se compara o SenseVoice con outros modelos STT?

Podo usar SenseVoice a través da API?

Podo executar SenseVoice no meu propio servidor?