报告错误/功能要求

说话人检测与分离

Q: How does 音频扬声器探测 work on STT.ai?

音频扬声器探测在您的浏览器中运行:粘贴 URL, 上传文件, 或者从您的 mic. STT.ai 中记录 。 选择 AI 模型并在5分钟内返回 抄本 。 导出为 TXT、 SRT、 VTT、 DOCX、 JSON 或 PDF 。

Q: Is 音频扬声器探测 free?

是的,每个访客都有600分钟的自由时间从STT.ai开始,可用于其他工作流程 音频扬声器探测 。 支付计划从5美元/月开始,打开更长的文件、私人记录和排队优先。

Q: How long does 音频扬声器探测 take?

大部分 音频扬声器探测 工作在5 分钟内完成。 1小时的音频文件通常以2-3分钟以最快的模型完成。 速度取决于所选的模式和当前 GPU 装载量 。

Q: 支持什么输入格式 音频扬声器探测?

音频扬声器探测 接受20+格式 : MP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM、AVI等。 输出到 TXT、 SRT、 VTT、 DOCX、 JSON 或 PDF 。

自动识别和标记音频和视频转录中的不同说话人。准确知道谁说了什么。

使用公开的音频和视频工作。 DRM 保护的内容不支持。

增强的升级

私人笔记

与笔录聊天

以 Pro 解锁 →

在此拖放文件或单击以浏览文件

MP3、WAV、M4A、FLAC、MP4、MKV、MOV、WebM-至多2GB

批次上传多个文件与 Pro 合

增强的升级

私人笔记

与笔录聊天

以 Pro 解锁 →

增强的升级

文本的实时演讲。 AI 自动校正, 使用较长的演讲, 准确性会提高。

先测试一下麦克风

每天10分钟免费 600分钟免费,有注册无信用卡已加密

免费签名 →

什么是说话人分离？

说话人分离是将音频流按照说话人身份分割为不同片段的过程。简单来说，它回答了“谁在什么时候说了话？”这个问题。 This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

说话人检测的工作原理

1. 语音活动检测

系统首先识别音频中哪些片段包含语音，区分静音、音乐或背景噪音。

2. 说话人嵌入

每个语音片段被转换为说话人嵌入——一个捕捉说话人独特声音特征的紧凑向量。

3. 聚类与标记

对嵌入进行聚类，将同一说话人的片段分组，然后为每个聚类分配标签（说话人1、说话人2等）。

说话人检测的使用场景

会议转录

自动标记会议录音中的每位参与者。生成清晰标注谁说了什么的会议纪要。

播客转录

区分播客节目中的主持人和嘉宾。创建带有正确说话人标注的节目笔记。

访谈转录

分离采访者和受访者的回答，用于研究、新闻和招聘文档。

法律与合规

创建带有清晰说话人标识的庭审记录、听证会和合规通话的官方记录。

STT.ai上的说话人检测

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

立即体验说话人检测

上传多人录音，自动标记说话人。

免费开始转录

常见问题

音频扬声器探测在您的浏览器中运行:粘贴 URL, 上传文件, 或者从您的 mic. STT.ai 中记录。选择 AI 模型并在5分钟内返回抄本。导出为 TXT、 SRT、 VTT、 DOCX、 JSON 或 PDF 。

是的,每个访客都有600分钟的自由时间从STT.ai开始,可用于其他工作流程音频扬声器探测。支付计划从5美元/月开始,打开更长的文件、私人记录和排队优先。

音频扬声器探测运行的AI模式与STT.ai的其余部分相同——我们的最佳模式在清洁演讲中达到95-97%的准确度(基准值为3-5%字错误率 ) 。如果第一个通过低于目标, 则在飞行上切换模型。

音频扬声器探测可以运行STT.ai的10+型的任何一种模式——STT.ai增强型(最精确)、低语大V3(99种语言)、荷兰语加那利语加那利语(#1 WER on subed slans)、小舌头涡轮(快)、月光(轻量级)等等。

是的,作为SRT或VTT的每一份记录稿出口都是与YouTube、Vimeo、TikTok、VLC和每个主要视频播放器合作的,燃烧字幕工具作为硬子将它们作为视频覆盖。

是的,议长的二分法自动标出每个声音(1号发言人,2号发言人,...),你可以在内置编辑中重新命名。在所有模式和语言中工作。

大部分音频扬声器探测工作在5 分钟内完成。 1小时的音频文件通常以2-3分钟以最快的模型完成。速度取决于所选的模式和当前 GPU 装载量。

音频扬声器探测接受20+格式 : MP3、WAV、M4A、FLAC、OGG、MP4、MKV、MOV、WebM、AVI等。输出到 TXT、 SRT、 VTT、 DOCX、 JSON 或 PDF 。

Yes. Audio files submitted to 音频扬声器探测 are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

是 STT.ai 提供与 Python 和 Node.js SDKs 的REST API, 加上一个为Claude 和 Cursor 提供的 MCP 服务器, 全部用于音频扬声器探测工作流程。免费 API 级别包括 100 分钟/ 月。

是的。每份笔录都打开在内置编辑器中,您可以在此校正单词、重命名扬声器、调整时间戳和添加笔记。所有更改都自动保存。

每一份记录稿都有一个独特的可分享的网址。将文件导出到 DOCX 或 PDF 进行电子邮件。 Pro 计划增加密码保护和长期链接, 用于客户工作。

STT.ai处理1 300+平台,包括YouTube、Vimeo、TikTok、SoundCloud、Zom、Gooom Meet、播客主机等。 URL转录只使用公开可获取的内容,DRM保护的信息来源不能被转录。

说话人检测与分离

什么是说话人分离？

说话人检测的工作原理

1. 语音活动检测

2. 说话人嵌入

3. 聚类与标记

说话人检测的使用场景

STT.ai上的说话人检测

立即体验说话人检测

常见问题

How does 音频扬声器探测 work on STT.ai?

Is 音频扬声器探测 free?

How accurate is 音频扬声器探测?

人工智能的模型我可以用在 音频扬声器探测 中吗?

Can I get subtitles from 音频扬声器探测?

Does 音频扬声器探测 detect different speakers?

How long does 音频扬声器探测 take?

支持什么输入格式 音频扬声器探测?

我用 音频扬声器探测 时 我的音频是私密的吗?

Is there a 音频扬声器探测 API?

Can I edit a 音频扬声器探测 transcript after?

How do I share what 音频扬声器探测 produces?

还有什么其他平台在音频扬声器探测之外还能工作?