Free AI Paraula a text

Gracriu àudio i vídeo a text en 100+ idiomes. 10+ Models AI. Detecció de l' altaveu. No es requereix signes.

9.2K
Recripcions
233.2K
minuts transcrits
100+
idioma
70+
Eines lliures

Funciona amb el & vídeo d' àudio públic & disponible. El contingut de DRM no està implementat.

Actualització per millorar
Recripció privada
Xat amb transcripció
Desbloqueja amb Pro →
Deixeu anar el fitxer aquí o cliqueu per a navegar
MP3, WAV, M4A, FLAC, MP4, MKV, MV, MOV, WebM KDE fins a 2GB
Actualització per millorar
Recripció privada
Xat amb transcripció
Desbloqueja amb Pro →
Actualització per millorar
Gravació: 0:00
Temps real Vosk (instant) russia_ subjects. kgm
Millorada Rumuz (acrati)
Enllaços públics: 24h, només text · Signa per a 7d + àudio · Pro per a enllaços privats

El discurs en temps real al text. Els errors de l' IA tal i com esteu parlant milloren les precisiós amb el discurs més llarg.

Primer prova el micròfon
❤️ Love STT.ai? Tell your friends!
Has utilitzat les teves transcripcions lliures

Signa't per obtenir 600 minuts/ mesos, o actualització de les transcripcions il·limitats.

10 dies lliures 600 mins de franc amb senyal Sense targeta de crèdit Xifrat
Compareu- vos lliurement →
Emmagatzematge encriptat del client — Les vostres transcripcions estan encriptades al vostre navegador. Fins i tot no els podem llegir. Aprèn com funciona →

How STT.ai Works

Tres passes a una transcripció exacta

1. Puja, grava o enganxa l' URL

Arrossegueu i deixeu anar qualsevol fitxer d' àudio o vídeo (MP3, WAV, MP4 i 20+ formats). Enregistrar des del micròfon en temps real. O enganxar un enllaç des de YouTube, Vimeo, TikTok i 1. 300+ plataformes.

2. A AI Trancrics amb la vostra elecció del model

Escolliu des de 10+A models incloent el Rumors, NVIDIA Canari (# 1 exactitud) i Moonshina. Detecta automàticament el llenguatge des de 100+ opcions. L' altaveu identifica qui ha dit què.

3. Exportar, compartir, o Integrar

Baixeu com TXT, SRT, VT, DOCX, JSON o PDF. Compartiu mitjançant enllaç. Useu la nostra API per integrar la transcripció a l' aplicació. Perfecte per subtítols, reunions de notes, podcasts i més.

100+
Idiomes acceptats
70+
Eines lliures
1,300+
Platines implementades
7
Exporta els formats

Desenvolupador- estrella API

Integra el text a la vostra aplicació en minuts.

REST + WebSocket — S' està carregant el fitxer i el flux d' hora real
Múltiples models — Rumors, Canary, millorats i més
Diarització del president — Detecta automàticament qui ha dit què
Sortida flexible — JSON, TXT, SRT, VT amb marques de temps de paraula
import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

A punt per transcrivir?

Publica el primer fitxer lliure. Sense targeta de crèdit, sense senyal. 600 minuts per mes al pla lliure.

Comença la transcribació

Preguntes més freqüents

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.