Свободна реч към текст онлайн
Преобразуване на речта в текст с AI-моделен транскрипция. Качване на аудио файлове, запис от микрофона си, или поставяне на URL. 100+ езици, 10+ модели, 98%+ точност.
1. Качване на запис на речта
Качване на аудио или видео файл, поставяне на URL, или запис реч от вашия микрофон.
2. AI преобразува речта в текст
Изберете от 10+ AI модели. Откриване на спикера и автоматично откриване на езика.
3. Експортиране на вашия текст
Изтеглете в 6 формата. Споделете транскриптни връзки с аудио предаване.
Реч до текстови модели
Изберете модела на АИ, който отговаря на вашите нужди — или нека да изберем най-добрия.
Говор на текст на 100+ езици
Изказване към текстови случаи
Готов ли си да превърнеш речта в текст?
Започнете безплатно →Често задавани въпроси
Речта към текста (наречено също разпознаване на речта или ASR) преобразува говореното аудио в писмени думи автоматично. STT.ai стартира записа си чрез AI модел, който слуша звука и изходите редактируем текст с времеви табели и спикер етикети - не се изисква писане.
Акустичен модел карта звука вълнообразие на фонеми, след което езиков модел съчетава тези в най-вероятното думи и интерпункция. STT.ai прави това в GPU с модели като Whisper Large V3 и NVIDIA Canary, така че един час запис обикновено се прави в 2-3 минути.
Да. Всеки посетител получава 600 безплатни минути месечно без регистрация, необходима за първото ви досие. Плащаните планове започват с 5 долара месечно и добавят по-дълги файлове, частни записи и приоритетна обработка.
При чиста реч нашите най-добри модели достигат 95-97% точност ( 3-5% Word Error Rate на бенчмарките). Точността пада с задния шум, тежки акценти, кръстословие или нискобитна звукова връзка – като използвате приличен микрофон и тиха стая прави най-голямата разлика.
Да. Говори в микрофона си и STT.ai потоци на живо чрез инструмента за преписване на живо. Можете също така да качите готов запис за партидна транскрипция, ако не се нуждаете от това слово по дума, докато говорите.
STT.ai разпознава 100+ езици и автоматично открива говорещия език за повечето аудио. Можете също така да зададете езика ръчно за малък лифт на точност, а записите на смесен език се обработват чрез превключване на средната клип.
Да. Диагностика на всеки глас (Speaker 1, Speaker 2,...) и можете да ги преименувате в редактора. Това работи във всеки подкрепен модел и език.
STT.ai приема 20+ формата, включително MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM и AVI. Изход към TXT, SRT, VTT, DOCX, JSON или PDF.
Говорът на текстът записва какво е било казано в думите; гласовото разпознаване (идентификацията на говорителя) определя това. STT.ai прави и двете — транскрипция плюс говореща диаризация — но термините описват различни задачи.
Да. Звукът се обработва и изтрива по подразбиране. Про планове добавяне на клиентско криптиране, така че транскриптите са нечетливи без вашия ключ, дори до STT.ai, и Вашите данни никога не се използват за модел обучение без изрично оптимизиране.
Да. STT.ai има REST API с Python и Node.js SDKs плюс MCP сървър за Клод и Курор. Безплатен API низ включва 100 минути/месечно, с засекунда на сметка отвъд това.
Да. Всеки транскрипт се отваря в вграден редактор, където можете да оправите погрешно изслушани думи, преименувате говорителите, регулирате часовите означения и добавяте бележки. Редактирането продължава във всеки формат на износ.