Informar de Bug / Pedido de Feature

Transcrição com Vosk

Name: Vosk
Author: Alpha Cephei

Funciona com áudio e vídeo disponível publicamente. O conteúdo protegido por DRM não é suportado.

Atualização para Melhorado

Transcrição privada

Conversa com transcrição

Desbloquear com Pro →

Deixe aqui o arquivo ou clique para navegar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — até 2GB

Lote de upload múltiplos arquivos com Pro

Atualização para Melhorado

Transcrição privada

Conversa com transcrição

Desbloquear com Pro →

Atualização para Melhorado

A fala em tempo real ao texto. A IA auto-correge ao mesmo tempo que você fala — a precisão melhora com a fala mais longa.

Teste o seu microfone primeiro

10 min/dia livre 600 min livre com inscrição Não há cartão de crédito Cifrado

Inscrever-se gratuitamente →

12.0%

WER

Línguas

100.0x

Velocidade

Apache 2.0

Licença

Sobre Vosk

O Vosk é um kit de ferramentas de reconhecimento de fala offline que funciona sem conexão à internet. Ele suporta 20+ idiomas com modelos compactos que podem funcionar em dispositivos móveis, Raspberry Pi e qualquer plataforma. Construído em arquiteturas de Kaldi e Zipformer.

Línguas Suportadas por Vosk

Inglês

Espanhol

Francês

Alemão

Chinês

Japonês

Coreano

Português

Árabe

Híndi

Russo

Italiano

Holandês

Turco

Polonês

Sueco

Indonésio

Vietnamita

Tcheco

Grego

Informações do Modelo

FornecedorAlpha Cephei
Arquitetura-
LicençaApache 2.0
ActualizadoMar 2026

Modelos Relacionados

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Perguntas frequentes

Vosk é um modelo de fala a texto por Alpha Cephei. STT.ai hospeda Vosk em nossa infraestrutura GPU para que você possa usá-lo sem providenciar seu próprio hardware — carregar áudio ou vídeo e escolher Vosk do seletor de modelos.

Nas referências padrão, Vosk atinge cerca de 8801% da taxa de erro do Word. A precisão do mundo real depende da qualidade, acento e linguagem do áudio; para gravações ruidosas ou acentuadas, esperam alguns pontos percentuais mais altos WER.

Vosk corre na nível livre de STT.ai — cada visitante recebe 600 minutos para começar sem custo. Planos pagos adicionam mais limites por arquivo, transcrições privadas e filas de espera prioritárias.

Vosk é lançado sob Apache 2.0, uma licença permissiva de código aberto. Você pode auto-hoste Vosk em seu próprio hardware ou usar a nossa versão hospedada — ambos são comercialmente utilizáveis.

Vosk suporta 20 idiomas. Auto-detecção escolhe a linguagem certa para a maioria do áudio; você também pode especificar manualmente para um pequeno elevador de precisão.

Vosk processa áudio a cerca de 100.0x em tempo real em nosso GPUs. Um arquivo de áudio de 1 hora termina em menos de 1 minutos; arquivos mais longos cola e notifica por e-mail quando feito.

Vosk tem 50M parâmetros. Os modelos mais grandes tendem a ser mais precisos mas mais lentos; STT.ai hosts Vosk na GPU para que a contagem de parâmetros não afecte o seu desempenho do lado do cliente.

Vosk aceita cada formato STT.ai suportes — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída como TXT, SRT, VTT, DOCX, JSON ou PDF.

Sim. Diarização do orador corre ao lado de Vosk para cada transcrição — cada orador é rotulado e você pode renomeá-los no editor depois.

Sim. Vosk funciona no nosso ambiente gerenciado — áudio é processado e excluído por padrão e nunca usado para treinamento sem opt-in explícito. Pro planos adicionar criptografia do lado do cliente para transcrições no repouso.

Use a ferramenta compar-stt para executar Vosk contra qualquer outro modelo suportado no mesmo áudio — você verá WER, contagem de segmentos, rótulos de alto-falante e pontuação de confiança lado a lado. A comparação Vosk vs Whisper Large V3 é a mais comumente executada.

Sim. Especifique "vosk" como o parâmetro do modelo no ponto final /v1/transcribe. Python e Node.js SDKs incluem Vosk exemplos. O nível de API gratuito inclui 100 minutos/mes.

Sim. Como Vosk é Apache 2.0-licenciado, você pode hospedá-lo. STT.ai página de código aberto lista o projeto repo e pesos. A maioria das equipes de produção usa a nossa versão hospedada para saltar compras GPU, swaps de modelos e ops.

Transcrição com Vosk

Sobre Vosk

Línguas Suportadas por Vosk

Informações do Modelo

Modelos Relacionados

Perguntas frequentes

O que é Vosk?

Quão precisas são Vosk?

Vosk é livre de usar?

Que licença usa Vosk?

Quantas línguas apoiam Vosk?

Quão rápido é Vosk?

Quão grande é o modelo Vosk?

Que formatos de áudio podem transcrever Vosk?

Vosk detecta múltiplos alto-falantes?

Os meus dados são privados quando usam Vosk?

Como se compara Vosk com outros modelos STT?

Posso usar Vosk através da API?

Posso executar Vosk no meu próprio servidor?