音量探测和diarization

在您的音频和视频抄录中自动识别并标出不同的喇叭。 确切知道谁说了些什么 。

如何运作 →
零知识加密在——你的笔录在到服务器之前就加密在浏览器里了, 甚至连我们都读不出来。 (所有数据总是通过过境的HTTPS加密。)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
在此拖放文件或单击以浏览文件
MP3、WAV、M4A、FLAC、MP4、MKV、MOV、WebM-至多2GB
录音: 0:00
实时 伏( 即时)
增强 耳语( 准确)
公共链接:24小时,仅文本 · 签名签名 7d+音频 · Pro 用于私人链接的私人链接

文本的实时演讲。 AI 自动校正, 使用较长的演讲, 准确性会提高 。

先测试一下麦克风
❤️ 爱你的STT. AI 告诉你的朋友!
你用的是免费的抄本

免费报名每月获得600分钟,或升级无限制的抄本。

每天10分钟免费 600分钟免费,有注册 无信用卡 已加密
免费签名 →

议长的分化是什么?

议长的二分法是根据发言者的身份将音频流分割成各部分的过程,用更简便的话说,它回答了“谁在什么时候发言?”的问题。 This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

音响探测如何工作

1. 语音活动探测

系统首先确定哪个音频部分含有言语与沉默、音乐或背景噪音。

2. 发言人嵌入式

每个演讲部分都转换成发言者嵌入式 -- -- 一种反映发言者独特声学特点的紧凑矢量。

3. 集群和标签

嵌入式分组分组,由同一发言者分组分组,然后为每个分组分配一个标签(发言者1、发言人2等)。

使用发言人侦测案件

会议翻译
自动给每个参会者贴上会议录音的标签。 生成分钟, 并清楚说明谁说了些什么 。
播客定时
在播客片段区分主机和宾客。 创建带有适当的演讲人属性的显示音符 。
采访描述
对研究、新闻和雇用文件的单独访谈者和受访者答复。
法律和合规
建立正式记录,记录证词、听讯和遵守要求,并清楚识别发言者身份。

在STT.ai上探测议长

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

现在尝试检测扬声器

上传多发音器录音,并看到自动标注的扬声器。

开始无跟踪

常问问题

将音频或视频文件上传到STT.ai,选择AI模型和选项,点击转录。几分钟内即可获得结果。可导出为TXT、SRT、VTT、DOCX、JSON或PDF。

是的!STT.ai为所有用户每月提供600分钟免费。首次转录无需注册。付费方案起价$5/月。

准确性取决于AI模型和音频质量。我们最好的模型在基准测试中达到5-7%的词错误率,即93-95%以上的准确率。

STT.ai 提供10+模型, 包括Whiseper large V3、 NVIDIA 加那利等。 您可以比较同一文档中不同模型的结果 。

是的, 在转录后, 将您的记录稿导出为 SRT 或 VTT 字幕文件。 这些与YouTube、 Vimeo 和所有主要视频平台有关 。

是的, STT.ai 自动识别并标出使用 AI 演讲者对称法的不同演讲者, 在所有模式和语言上都有效。

大部分文件在5分钟内被转录。一个1小时的音频文件通常需要2-3分钟与我们最快的模型。

STT.ai 支持20+音频和视频格式,包括MP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM和AVI等MP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM和AVI。

是的。 音频文件在转录后被处理和删除。 您的数据从不用于培训。 客户端加密在所有计划中都是免费的—— 它加密存储记录誊本, 只有您的密钥。 在处理过程中, 服务器会用普通文本处理您的音频 。 了解我们的安全措施.

是的,STT.ai 提供Python和Node.js SDKs的REST API。

是的。 STT.ai 包含一个内置的抄录编辑器, 您可以更正错误, 重命名扬声器, 并调整时间戳 。

每一份笔录都有一个独特的共享链接。 输出到 DOCX 或 PDF 用于电子邮件。 Pro 计划提供有密码保护的永久链接 。