Povlecite in spustite vsako zvočno ali video datoteko (MP3, WAV, MP4, in 20+ formatov). Snemajte iz mikrofona v realnem času. Ali pa zalepite povezavo z YouTube, Vimeo, TikTok in 1.300+ platform.

2. AI Tranpisci z vašo izbiro modela

Izberite iz 10+ AI modelov, vključno z Whisper, NVIDIA Canary (# 1 točnost), in Moonshine. Samodejno zaznajte jezik iz 100+ možnosti. Zvočnik diarizacija ugotovi, kdo je povedal kaj.

3. Izvoz, delitev ali integracija

Prenesi kot TXT, SRT, VTT, DOCX, JSON ali PDF. Delite preko povezave. Uporabite naš API za vključevanje transkripcije v vašo aplikacijo. Popolno za podnapise, opombe za srečanja, podcaste in več.

Priljubljeni primeri uporabe

Vse primere uporabe →

Sestanki

Sporočila o srečanju in akcijske točke

Razredne opombe in študijski vodniki

Pravno

Depozicije in sodišče

Vse, kar potrebujete za avdio & video

70+ brezplačna orodja, ki jih poganja AI

Govor na besedilo

Prepisuj zvočne in video datoteke

Live Transcription

Prepis mikrofona v realnem času

Prepisi YouTube

Izvleci napise iz katerega koli videa

Urejevalnik podnapisov

Urejanje datotek SRT in VTT na spletu

Odstranjevalnik hrupa

Odstrani ozadje zvoka

Avdio pretvornik

MP3, WAV, FLAC, OGG, AAC & več

Odstranjevalnik glasbe

Izoliraj vokal ali jih odstrani

Zvočni trimer

Izreži in obriši zvočne datoteke

Pretvornik naslovov

SRT, VTT, SSA, SBV formati

Zapisnik sestankov

Izvleci povzetke in povzetke ukrepov

Besedilo v govor

Pretvori besedilo v naravni govor

Prevajalnik podnaslovov

Prevedite podnapise v 100+ jezike

Oglejte si vsa orodja 70+ →

100+

Jeziki, podprti

70+

Brezplačna orodja

1,300+

Podprte platforme

Izvozna oblika

Razvijalec-prva API

Integrirajte govor-to-tekst v aplikacijo v minutah. RESTful API z real-time WebSocket streaming.

REST + WebSocket — Nalaganje datotek in streaming v realnem času

Več modelov — Šapetanje, Kanarsko, Izboljšano in več

Diarizacija zvočnika — Samodejno odkrij, kdo je rekel kaj.

Prilagodljiv izhod — JSON, TXT, SRT, VTT z besednimi časovnimi oznakami

API Docs Igrališče

import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

import fs from "fs";

const form = new FormData();
form.append("file", fs.createReadStream("meeting.mp3"));
form.append("model", "large-v3-turbo");
form.append("language", "auto");
form.append("diarize", "true");

const res = await fetch("https://api.stt.ai/v1/transcribe", {
  method: "POST",
  headers: { Authorization: `Bearer ${API_KEY}` },
  body: form,
});

const { segments } = await res.json();
segments.forEach(s =>
  console.log(`${s.speaker}: ${s.text}`)
);

Prehod z drugega govora na SMS storitev?

STT.ai vs Otter.ai STT.ai vs TurboScribe STT.ai vs Fireflies STT.ai vs Rev Primerjaj vse →

Preprosta, pregledna cena

Začnite svobodno.

Prosto

$0/Mo

600 min/mesec

5 jezikov
Izvoz TXT in SRT
Dostop API

Začetek

$9/Mo

3000 min/mesec

100+ jezikov
Vsi modeli AI
Vse oblike izvoza

VEČINA POPULARJA

Prof.

$19/Mo

7,500 min/mesec

Zasebni zapisi
Neomejeni sedeži ekipe
Prednostna obdelava

Podjetje

$39/Mo

20.000 min/mesec

Vse v prof.
Shranjevanje 50K min
Neomejen klepet AI

Oglejte si vse načrte in cene →

Podprti jeziki

Vse 100+ jezikov →

English Spanish French German Japanese Chinese Arabic Hindi Portuguese Russian Korean Italian Turkish Dutch Polish +85 več

Pripravljeni za transkripcijo?

Odpošljite svojo prvo datoteko brezplačno. Brez kreditne kartice, brez prijave. 600 minut mesečno na brezplačni načrt.

Začnite s pisanjem

Pogosta vprašanja

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.

Prosti AI Govor na besedilo

Govor na besedilne modele

Kako deluje STT.ai

1. Nalaganje, zapisovanje ali Prilepi URL

2. AI Tranpisci z vašo izbiro modela

3. Izvoz, delitev ali integracija

Priljubljeni primeri uporabe

Vse, kar potrebujete za avdio & video

Razvijalec-prva API

Preprosta, pregledna cena

Podprti jeziki

Pripravljeni za transkripcijo?

Pogosta vprašanja

How does speech to text work on STT.ai?

Is speech to text free?

How accurate is speech to text?

What AI models can I use for speech to text?

Can I get subtitles from speech to text?

Does speech to text detect different speakers?

How long does speech to text take?

What input formats does speech to text support?

Is my audio private when I use speech to text?

Is there a speech to text API?

Can I edit a speech to text transcript after?

How do I share what speech to text produces?

What other platforms work beyond speech to text?