Transcrire avec STT.ai Enhanced
3.2%
WER
100
Languages
160.0x
Speed
Proprietary
License
À propos de STT.ai Enhanced
STT.ai Enhanced is our most accurate and fastest speech-to-text model. Built on cutting-edge transformer architecture with proprietary optimizations, it delivers industry-leading word error rates across 100+ languages. Ideal for production transcription, real-time captioning, and enterprise applications.
✦ Unlock Enhanced Model
Get access to our most accurate model with any paid plan. 3.2% WER, 160x real-time speed, 100+ languages.
View Plans →Model Info
- ProviderSTT.ai
- Architecture-
- LicenseProprietary
- UpdatedMar 2026
Questions fréquemment posées
STT.ai Enhanced est un modèle speech-to-text par STT.ai. STT.ai héberge STT.ai Enhanced sur notre infrastructure GPU afin que vous puissiez l'utiliser sans fournir votre propre matériel — télécharger audio ou vidéo et choisir STT.ai Enhanced à partir du modèle de sélection.
Sur les repères standard, STT.ai Enhanced atteint environ 3.2% de Word Error Rate. La précision du monde réel dépend de la qualité audio, de l'accent et de la langue; pour les enregistrements bruyants ou accentués, attendez quelques points de pourcentage plus haut WER.
STT.ai Enhanced est un modèle premium — inclus avec n'importe quel forfait STT.ai payé à partir de 5 $/mois. Les utilisateurs gratuits peuvent prévisualiser STT.ai Enhanced sur des clips courts; les fichiers plus longs nécessitent un forfait actif.
STT.ai Enhanced est distribué sous Proprietary. La version hébergée de STT.ai gère la conformité de licence pour vous afin que l'utilisation commerciale par notre service est simple.
STT.ai Enhanced prend en charge 100 langues. La détection automatique choisit la bonne langue pour la plupart des audio; vous pouvez également le spécifier manuellement pour un petit ascenseur de précision.
STT.ai Enhanced traite l'audio à environ 160.0x en temps réel sur nos GPUs. Un fichier audio d'une heure se termine en moins de 1 minutes; des fichiers plus longs font la file d'attente et les avisent par courrier électronique lorsque cela est fait.
STT.ai Enhanced a 1.5B paramètres. Les modèles plus grands ont tendance à être plus précis mais plus lents; STT.ai hôtes STT.ai Enhanced sur GPU de sorte que le nombre de paramètres n'affecte pas les performances de votre client.
STT.ai Enhanced accepte chaque format STT.ai supports — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, et autres. Sortie comme TXT, SRT, VTT, DOCX, JSON ou PDF.
Oui. La diarisation des haut-parleurs se déroule aux côtés de STT.ai Enhanced pour chaque transcription — chaque haut-parleur est étiqueté et vous pouvez les renommer dans l'éditeur par la suite.
Oui. STT.ai Enhanced fonctionne dans notre infrastructure privée — audio est traité et supprimé par défaut. Pro+ ajoute le cryptage côté client afin que les transcriptions soient illisibles sans votre clé, et Private Cloud vous permet d'auto-héberger STT.ai Enhanced entièrement dans votre propre VPC.
Utilisez l'outil compare-stt pour exécuter STT.ai Enhanced contre n'importe quel autre modèle pris en charge sur le même son — vous verrez WER, le nombre de segments, les étiquettes des haut-parleurs et les scores de confiance côte à côte. La comparaison STT.ai Enhanced vs Whisper Large V3 est la plus courante.
Oui. Spécifiez "stt-ai-enhanced" comme paramètre de modèle sur le paramètre /v1/transcrire. Les SDKs Python et Node.js incluent STT.ai Enhanced exemples. Le niveau d'API gratuit comprend 100 minutes/mois.
La licence pour STT.ai Enhanced est définie par STT.ai; l'auto-hébergement dépend de leurs conditions. Le service hébergé de STT.ai fonctionne STT.ai Enhanced sur GPU géré afin que vous n'ayez pas besoin de gérer cette intégration.