Détection et diarisation des haut-parleurs

Identifiez et marquez automatiquement différents haut-parleurs dans vos transcriptions audio et vidéo. Savez exactement qui a dit quoi.

Comment ça marche →
Cryptage côté client — votre transcription sera cryptée dans votre navigateur avant d'être stockée. Le serveur traite votre audio pour la transcription, puis le résultat est crypté localement avec votre clé avant d'enregistrer. (Toutes les données sont toujours cryptées via HTTPS en transit.)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
Déposer le fichier ici ou cliquer pour parcourir
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — jusqu'à 2 Go
Enregistrement : 0:00
Temps réel Vosk (instantanément)
Amélioration Whisper (préciser)
Liens publics: 24h, texte seulement · Inscrivez-vous pour 7d + audio · Pro pour les liaisons privées

La parole en temps réel au texte. L'IA corrige automatiquement lorsque vous parlez — la précision s'améliore avec la parole plus longue.

Testez d'abord votre microphone
❤️ Aimez STT.ai? Dites à vos amis!
Vous avez utilisé vos transcriptions gratuites

Inscrivez-vous gratuitement pour obtenir 600 minutes/mois, ou mise à jour pour des transcriptions illimitées.

10 min/jour gratuit 600 min sans inscription Pas de carte de crédit Chiffres
Inscrivez-vous gratuitement →

Qu'est-ce que la diarisation du président?

La diarisation du haut-parleur est le processus de partition d'un flux audio en segments selon l'identité du haut-parleur. En termes plus simples, il répond à la question « Qui a parlé quand? » This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Comment fonctionne la détection des haut-parleurs

1. Détection d'activités vocales

Le système identifie d'abord quels segments de l'audio contiennent la parole contre le silence, la musique ou le bruit de fond.

2. Embauche du haut-parleur

Chaque segment de la parole est converti en un haut-parleur intégré -- un vecteur compact qui capture les caractéristiques vocales uniques du haut-parleur.

3. Regroupement et étiquetage

Les assemblages sont regroupés dans des segments de groupe provenant d'un même haut-parleur, puis chaque groupe reçoit une étiquette (Speaker 1, Speaker 2, etc.).

Cas d'utilisation pour la détection du haut-parleur

Transcription de la réunion
Étiqueter automatiquement chaque participant dans les enregistrements de réunion. Générer des minutes avec l'attribution claire de qui a dit quoi.
Transcription de podcast
Distinguer entre l'hôte et les invités dans les épisodes de podcast. Créer des notes de spectacle avec l'attribution appropriée des haut-parleurs.
Transcription de l'entrevue
Réponses distinctes de l'intervieweur et de l'interviewé pour la recherche, le journalisme et la documentation d'embauche.
Légal & Conformité
Créer des registres officiels des dépositions, des audiences et des appels de conformité avec l'identification claire des haut-parleurs.

Détection de haut-parleur sur STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Essayez de détecter les haut-parleurs maintenant

Télécharger un enregistrement multi- haut-parleurs et voir les haut-parleurs automatiquement étiquetés.

Commencer à faire du tracking gratuitement

Foire aux questions

Téléchargez votre fichier audio ou vidéo sur STT.ai, choisissez le modèle IA et cliquez sur Transcrire. Exportez en TXT, SRT, VTT, DOCX, JSON ou PDF.

Oui ! STT.ai offre 600 minutes gratuites par mois. Aucune inscription requise. Les forfaits payants commencent à 5 $/mois.

La précision dépend du modèle IA et de la qualité audio. Nos meilleurs modèles atteignent 93-95%+ de précision.

STT.ai propose des modèles 10+ dont Whisper Large V3, NVIDIA Canary, et plus encore. Vous pouvez comparer les résultats de différents modèles sur le même fichier.

Oui. Après avoir transcrit, exportez votre transcription sous forme de fichiers sous-titrés SRT ou VTT. Ceux-ci fonctionnent avec YouTube, Vimeo et toutes les principales plateformes vidéo.

Oui. STT.ai identifie et étiquette automatiquement différents haut-parleurs en utilisant la diarisation des haut-parleurs AI. Fonctionne sur tous les modèles et langues.

La plupart des fichiers sont transcrits en moins de 5 minutes. Un fichier audio d'une heure prend généralement 2-3 minutes avec nos modèles les plus rapides.

STT.ai prend en charge 20 formats audio et vidéo dont MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM et AVI. Exporter sous forme de TXT, SRT, VTT, DOCX, JSON ou PDF.

Oui. Les fichiers audio sont traités et supprimés après transcription. Vos données ne sont jamais utilisées pour la formation. Le cryptage côté client est gratuit sur tous les plans — il crypte les transcriptions stockées avec une seule clé que vous avez. En savoir plus sur notre sécurité.

Oui. STT.ai offre une API REST avec des SDKs Python et Node.js. Le niveau gratuit comprend 100 minutes par mois.

Oui. STT.ai comprend un éditeur de transcription intégré où vous pouvez corriger les erreurs, renommer les haut-parleurs et ajuster les horodatages.

Chaque transcription reçoit un lien partageable unique. Exporter vers DOCX ou PDF pour envoyer un courriel. Les plans Pro offrent des liens permanents et protégés par mot de passe.