Fritt AI Tal till text

Översätt ljud och video till text på 100+ språk. 10+ AI-modeller. Högtalardetektering. Ingen registrering krävs.

9.2K
transkriptioner
233.2K
minuter transkriberade
100+
språk
70+
Fria verktyg

Fungerar med allmänt tillgängligt ljud och video. DRM-skyddat innehåll stöds inte.

Uppgradering för förbättrad
Private transcript
Chatta med utskrift
Lås upp med Pro →
Släpp fil här eller klicka för att bläddra
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM – upp till 2GB
Uppgradering för förbättrad
Private transcript
Chatta med utskrift
Lås upp med Pro →
Uppgradering för förbättrad
Inspelning: 0:00
Realtid Vosk (instant)
Förstärkt Viskar (korrekt)
Allmänna länkar: 24h, endast text · Registrera dig för 7d + ljud · För för privata förbindelser

Real-time tal till text. AI auto-korrigerar medan du talar — noggrannheten förbättras med längre tal.

Testa din mikrofon först
❤️ Love STT.ai? Tell your friends!
Du har använt dina gratis transkriptioner

Registrera dig gratis för att få 600 minuter/månad, eller uppgradera för obegränsade transkriptioner.

10 gratis min/dag 600 min gratis med anmälan Inget kreditkort Krypterad
Registrera dig gratis →
Klientsidekrypterad lagring@ info: whatsthis — Dina utskrifter är krypterade i din webbläsare, inte ens vi kan läsa dem. Lär dig hur det fungerar →

Tillförlitlig av yrkesverksamma över hela världen

Hur STT.ai fungerar

Tre steg till korrekt transkription

1. Ladda upp, spela in eller klistra in webbadressen

Dra och släpp alla ljud- eller videofiler (MP3, WAV, MP4 och 20+ format). Spela in från din mikrofon i realtid. Eller klistra in en länk från YouTube, Vimeo, TikTok och 1.300+ plattformar.

2. AI transkriberar med ditt val av modell

Välj mellan 10+ AI-modeller inklusive Whisper, NVIDIA Canary (#1 noggrannhet), och Moonshine. Automatiskt upptäcka språk från 100+ alternativ. Högtalare diarization identifierar vem som sa vad.

3. Exportera, dela eller integrera

Ladda ner som TXT, SRT, VTT, DOCX, JSON eller PDF. Dela via länk. Använd vårt API för att integrera transkription i din app. Perfekt för textning, mötesanteckningar, podcasts med mera.

100+
Språk som stöds
70+
Gratis verktyg
1,300+
Plattformar som stöds
7
Exportformat

Utvecklar-första API

Integrera tal-till-text i din app på några minuter. RESTful API med realtid WebSocket streaming.

REST + WebSocket — Filuppladdning och streaming i realtid
Flera modeller — Whisper, Canary, Förstärkt och mer
Högtalardiarisering — Automatisk upptäckt vem sa vad
Flexibel utgång — JSON, TXT, SRT, VTT med ordkombinationer
import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

Är du redo att transkribera?

Ladda upp din första fil gratis. Inget kreditkort, ingen registrering. 600 minuter per månad på den fria planen.

Börja skriva om@ info: whatsthis

Vanliga frågor

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.