Transcribe with Distil-Whisper

Berfungsi dengan audio & video yang tersedia untuk umum. Kandungan yang dilindungi DRM tidak disokong.

Naik taraf untuk Dipertingkatkan
Private transcript
Berbual dengan transkripsi
Buka dengan Pro →
Letakkan fail di sini atau klik untuk layari
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — sehingga 2GB
Naik taraf untuk Dipertingkatkan
Private transcript
Berbual dengan transkripsi
Buka dengan Pro →
Naik taraf untuk Dipertingkatkan
Rekod: 0:00
Masa-nyata Lilin (sekejap)
Dipertingkatkan Whisper (accurate)
Pautan awam: 24h, teks sahaja · Daftar masuk untuk 7d + audio · Pro untuk pautan peribadi

Percakapan masa nyata ke teks. AI auto-betulkan bila anda bercakap — ketepatan bertambah dengan percakapan yang lebih panjang.

Uji mikrofon anda dahulu
❤️ Love STT.ai? Tell your friends!
Awak dah gunakan transkripsi percuma awak.

Daftar secara percuma untuk mendapatkan 600 minit / bulan, atau menaik taraf untuk transkripsi tanpa had.

10 minit percuma/hari 600 min percuma dengan mendaftar Tiada kad kredit Disulitkan
Daftar masuk percuma →
5.8%
WER
99
Languages
48.0x
Speed
MIT
License

About Distil-Whisper

Soalan Lazim

Distil-Whisper adalah model pertuturan-ke-teks oleh Hugging Face. STT.ai memuatkan Distil-Whisper pada infrastruktur GPU kami supaya anda boleh menggunakannya tanpa menyediakan perkakasan anda sendiri — muat naik audio atau video dan pilih Distil-Whisper dari pemilih model.

Pada piawaian piawai, Distil-Whisper mencapai kira-kira 5.8% Kadar Ralat Perkataan. Ketepatan dunia nyata bergantung pada kualiti audio, loghat, dan bahasa; untuk rakaman bising atau loghat, harapkan beberapa peratusan WER yang lebih tinggi.

Distil-Whisper berjalan pada aras percuma STT.ai — setiap pengunjung mendapat 600 minit/bulan tanpa kos. Rancangan berbayar menambah had per-fail yang lebih panjang, transkripsi peribadi, dan baris gilir keutamaan.

Distil-Whisper dikeluarkan di bawah lesen sumber terbuka MIT. Anda boleh memuat turun Distil-Whisper pada perkakasan anda sendiri atau menggunakan versi kami yang dimuat turun — kedua-duanya boleh digunakan secara komersial.

Distil-Whisper menyokong 99 bahasa. Auto-kesan memilih bahasa yang betul untuk kebanyakan audio; anda juga boleh nyatakannya secara manual untuk ketelusan yang lebih baik.

Distil-Whisper memproses audio pada kira-kira 48.0x masa nyata pada GPU kami. Fail audio 1 jam selesai dalam kurang daripada 1 minit; fail yang lebih panjang berijil dan maklumkan melalui emel bila selesai.

Distil-Whisper mempunyai parameter 756M. Model yang lebih besar cenderung lebih tepat tetapi lebih perlahan; STT.ai memuatkan Distil-Whisper pada GPU jadi kiraan parameter tidak mempengaruhi prestasi sisi klien anda.

Distil-Whisper menerima setiap format yang disokong STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, dan lain-lain. Output sebagai TXT, SRT, VTT, DOCX, JSON, atau PDF.

Ya. Diarisasi pembicara berjalan bersama Distil-Whisper untuk setiap transkripsi — setiap pembicara dilabel dan anda boleh menamakan semula mereka dalam editor selepas itu.

Ya. Distil-Whisper berjalan dalam persekitaran yang dikendalikan kami — audio diproses dan dipadam secara lalai dan tidak pernah digunakan untuk latihan tanpa opt-in yang jelas. Rancangan Pro menambah penyulitan sisi klien untuk transkripsi ketika rehat.

Gunakan alat compare-stt untuk jalankan Distil-Whisper terhadap model yang disokong lain pada audio yang sama — anda akan lihat WER, kiraan segmen, label pengeras, dan skor keyakinan berdampingan. Perbandingan Distil-Whisper vs Whisper Large V3 adalah yang paling biasa dijalankan.

Ya. Nyatakan "distil-whisper" sebagai parameter model pada titik akhir /v1/transcribe. Python dan Node.js SDKs termasuk contoh Distil-Whisper. Tahap API percuma termasuk 100 minit/bulan.

Ya. Kerana Distil-Whisper adalah MIT-licensed, anda boleh self-host ia. STT.ai's open-source page lists the project repo and weights. Kebanyakan pasukan produksi menggunakan versi kami yang dihost untuk melepasi pembelian GPU, pertukaran model, dan ops.