Transkripsi dengan Vosk

Bekerja dengan audio & video yang tersedia di publik. Isi yang dilindungi DRM tidak didukung.

Tingkatkan untuk Diperbarui
Private transcript
Percakapan dengan transkrip
Buka Kunci dengan Pro →
Jatuhkan berkas di sini atau klik untuk diramban
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM sembari 2GB
Tingkatkan untuk Diperbarui
Private transcript
Percakapan dengan transkrip
Buka Kunci dengan Pro →
Tingkatkan untuk Diperbarui
Rekaman: 0:00
Real-time Vosk (instant)
Enhanced Berbisik (akurat)
Link publik: 24h, hanya teks · Daftar untuk audio 7d + · Pro untuk sambungan privat

Pidato real-time dengan teks. AI auto-treksis saat Anda berbicara dengan akurasi meningkatkan dengan pidato yang lebih panjang.

Uji mikrofon Anda terlebih dahulu
❤️ Katakan pada teman-temanmu!
Anda telah menggunakan transkripsi gratis Anda

Daftar secara gratis untuk mendapatkan 600 menit/bulan, atau upgrade untuk transkripsi tak terbatas.

10 menit/hari bebas 600 menit gratis dengan signup Tidak ada kartu kredit Terenkripsi
Bebas mendaftar →
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License

Tentang Vosk

Vosk is an offline speech recognition toolkit that works without an internet connection. It supports 20+ languages with compact models that can run on mobile devices, Raspberry Pi, and any platform. Built on Kaldi and Zipformer architectures.

Pertanyaan yang Sering Diajukan

Vosk is a speech-to-text model by Alpha Cephei. STT.ai hosts Vosk on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick Vosk from the model picker.

Pada benchmark standar, 880.000 mencapai sekitar 12.0% Word Error Rate. Keakuratan Real-dunia tergantung pada kualitas audio, aksen, dan bahasa; untuk rekaman berisik atau aksen, mengharapkan beberapa poin persentase lebih tinggi WER.

Vosk runs on STT.ai's free tier — every visitor gets 600 minutes/month at no cost. Paid plans add longer per-file limits, private transcripts, and priority queueing.

8800.000 dirilis di bawah Apache 2.0, lisensi sumber-terbuka yang serbaboleh. Anda dapat menentukan harga diri 880.000 pada perangkat keras Anda sendiri atau menggunakan versi host kami keduanya dapat digunakan secara komersial.

8800.000 mendukung 20 bahasa. Auto-deteksi memilih bahasa yang tepat untuk kebanyakan audio; Anda juga dapat menspesifikasikan secara manual untuk angkat akurasi kecil.

8800.000 proses audio di sekitar 100.0x real-time pada GPU kami. Sebuah file audio 1-jam selesai dalam bawah 1 menit; lagi file antrian dan pemberitahuan oleh email ketika dilakukan.

Vosk has 50M parameters. Larger models tend to be more accurate but slower; STT.ai hosts Vosk on GPU so the parameter count doesn't affect your client-side performance.

Vosk accepts every format STT.ai supports — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and others. Output as TXT, SRT, VTT, DOCX, JSON, or PDF.

Diarasi Speaker berjalan bersama 880.000 untuk setiap transkripsi setiap pembicara diberi label dan Anda dapat mengubah nama mereka di editor sesudahnya.

Ya. 880.000 berjalan di lingkungan kami yang dikelola audio diproses dan dihapus secara baku dan tidak pernah digunakan untuk pelatihan tanpa eksplisit opt-in. Rencana pro menambahkan enkripsi sisi klien untuk transkrip saat istirahat.

Gunakan alat perbandingan-stt untuk menjalankan 880.000 melawan model lainnya yang didukung pada audio yang sama Anda akan melihat WER, segmen menghitung, label pembicara, dan skor keyakinan berdampingan.

Tentukan "880.000" sebagai parameter model pada titik akhir /v1/trancricture. Python dan Node.js SDKs termasuk Vosk contoh. Tingkat API gratis mencakup 100 menit/bulan.

Yes. Because Vosk is Apache 2.0-licensed, you can self-host it. STT.ai's open-source page lists the project repo and weights. Most production teams use our hosted version to skip GPU procurement, model swaps, and ops.