Wolny AI Przemówienie do tekstu

Transcribe audio & video to text in 100+ languages. 10+ AI modele. Wykrywanie głośnika. Nie wymaga się rejestracji.

9.2K
transkrypcje
233.2K
minut przepisanych
100+
języki
70+
wolne narzędzia

Pracuje z publicznie dostępnym audio & wideo. Zawartość zabezpieczona DRM nie jest obsługiwana.

Aktualizacja dla poprawy
Private transcript
Rozmowa z transkrypcją
Odblokuj za pomocą Pro →
Przepuść plik tutaj lub kliknij aby przeglądać
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — do 2GB
Aktualizacja dla poprawy
Private transcript
Rozmowa z transkrypcją
Odblokuj za pomocą Pro →
Aktualizacja dla poprawy
Nagrywanie: 0:00
Realizacja czasu Vosk (instant)
Poprawa Szeptanie (dokładnie)
Odnośniki publiczne: 24h, tylko tekst · Zarejestruj się. dla 7d + audio · Prof. dla odnośników prywatnych

Przemówienie w czasie rzeczywistym do tekstu. AI automatycznie poprawia się w momencie, gdy mówisz – dokładność poprawia się przy dłuższej mowie.

Najpierw sprawdź mikrofon
❤️ Love STT.ai? Tell your friends!
Użyłeś wolnych transkrypcji.

Zarejestruj się za darmo, aby otrzymać 600 minut/miesiąc, lub uaktualnić dla nieograniczonych transkrypcji.

10 bezpłatnych min/dzień 600 minut bezpłatnie z rejestracją Brak karty kredytowej Zaszyfrowane
Zarejestruj się za darmo →
Przechowywanie zaszyfrowane na stronie klienta — Twoje transkrypty są zaszyfrowane w twojej przeglądarce. Naucz się, jak działa. →

Zaufane przez profesjonalistów na całym świecie

Jak działa STT.ai

Trzy kroki do dokładnej transkrypcji

1. Wysyłka, zapis lub wklej URL

Przeciągnij i upuść dowolne pliki audio lub wideo (MP3, WAV, MP4 i 20+). Zapisuj z mikrofonu w czasie rzeczywistym. Albo wklej link z YouTube, Vimeo, TikTok i 1.300+ platform.

2. AI Przepisy z Twoim wyborem modelu

Wybierz z modeli 10+ AI, w tym Whisper, NVIDIA Canary (#1 dokładność) i Moonshine. Automatycznie wykryć język z 100+ opcji. Diarizacja głośnika identyfikuje, kto co powiedział.

3. Eksport, udział lub integracja

Pobierz jako TXT, SRT, VTT, DOCX, JSON lub PDF. Podziel się przez link. Użyj naszego API do integracji transkrypcji do aplikacji. Idealnie dla napisów, notatek spotkań, podcastów i innych.

100+
Języki obsługiwane
70+
Darmowe narzędzia
1,300+
Obsługiwane platformy
7
Eksportuj formaty

Developer- Pierwszy API

Iнтегрuj przemówienie do tekstu do aplikacji w ciągu kilku minut. RESTful API z streamingiem WebSocket w czasie rzeczywistym.

REST + WebSocket — Przesyłanie plików i strumieniowanie plików w czasie rzeczywistym
Wielokrotne modele — Szeptacz, Kanaryjski, Poprawa i więcej
Dializacja głośnika — Samodzielnie wykryć, kto co powiedział.
Wyjście elastyczne — JSON, TXT, SRT, VTT z czasami słów
import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

Gotowy do transkrypcji?

Wyślij swój pierwszy plik za darmo. Bez karty kredytowej, bez rejestracji. 600 minut miesięcznie na darmowy plan.

Rozpocznij transkripcję

Często zadawane pytania

speech to text runs in your browser: paste a URL, upload a file, or record from your mic. STT.ai picks the AI model and returns the transcript in under 5 minutes. Export as TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes — every visitor gets 600 free minutes/month on STT.ai, usable for speech to text the same as any other workflow. Paid plans starting at $5/month unlock longer files, private transcripts, and priority queueing.

speech to text runs on the same AI models as the rest of STT.ai — our best models reach 95-97% accuracy on clean speech (3-5% Word Error Rate on benchmarks). Switch models on the fly if the first pass is below your target.

speech to text can run on any of STT.ai's 10+ models — STT.ai Enhanced (most accurate), Whisper Large V3 (99 languages), NVIDIA Canary (#1 WER on supported langs), Whisper Turbo (fast), Moonshine (lightweight), and more.

Yes. Every transcript exports as SRT or VTT — works with YouTube, Vimeo, TikTok, VLC, and every major video player. The burn-subtitles tool overlays them onto video as hardsubs.

Yes. Speaker diarization automatically labels each voice (Speaker 1, Speaker 2, ...) and you can rename them in the built-in editor. Works across all models and languages.

Most speech to text jobs finish in under 5 minutes. A 1-hour audio file typically completes in 2-3 minutes with our fastest models. Speed depends on chosen model and current GPU load.

speech to text accepts 20+ formats — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and more. Output to TXT, SRT, VTT, DOCX, JSON, or PDF.

Yes. Audio files submitted to speech to text are processed and deleted by default. Pro plans add client-side encryption — even if STT.ai's database is breached, your transcripts are unreadable without your key. Data is never used for model training without explicit opt-in.

Yes. STT.ai offers a REST API with Python and Node.js SDKs, plus an MCP server for Claude and Cursor — all usable for speech to text workflows. Free API tier includes 100 minutes/month.

Yes. Every transcript opens in the built-in editor where you can correct words, rename speakers, adjust timestamps, and add notes. All changes save automatically.

Every transcript gets a unique shareable URL. Export to DOCX or PDF for email. Pro plans add password-protected and permanent links — useful for client work.

STT.ai handles 1,300+ platforms including YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, and more. URL transcription works with publicly-available content only — DRM-protected sources can't be transcribed.