Transcribe with Distil-Whisper
5.8%
WER
99
Languages
48.0x
Speed
MIT
License
About Distil-Whisper
Model Info
- ProviderHugging Face
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Często zadawane pytania
Distil-Whisper jest modelem mowy do tekstu przez Hugging Face. STT.ai hosts Distil-Whisper na naszej infrastrukturze GPU, dzięki czemu można go wykorzystać bez dostarczania własnego sprzętu – wyślij audio lub wideo i wybierz Distil-Whisper z wybieracza modeli.
W odniesieniu do standardowych poziomów odniesienia Distil-Whisper osiąga około 5.8% Błędów Word. Dokładność rzeczywistego świata zależy od jakości dźwięku, akcentu i języka; w przypadku głośnych lub akcentowanych nagrań, oczekuje się kilku punktów procentowych wyższych WER.
Distil-Whisper biegnie na wolnym poziomie STT.ai – każdy odwiedzający otrzymuje 600 minut/miesiąc bez kosztu. Płacone plany dodają dłużej limity na pliki, prywatne transkrypty i priorytetowe kolejki.
Distil-Whisper jest wydane pod MIT, licencja otwartego źródła. Można samodzielnie gospodarować Distil-Whisper na własnym sprzętie lub korzystać z naszej hospodowanej wersji – obie są komercyjne użyteczne.
Distil-Whisper obsługuje 99 języków. Automatyczne wykrywanie wybiera właściwy język dla większości audio; można również wskazywać go ręcznie dla małego podnoszenia dokładności.
Distil-Whisper procesów audio w około 48.0x w czasie rzeczywistym na naszych GPU. 1-godzinny plik audio zakończy się w mniej niż 8802 minut; dłuższa kolejka plików i powiadomić za pośrednictwem e-maila.
Distil-Whisper ma 8802 parametrów. Większe modele są zazwyczaj bardziej dokładne, ale wolniej; STT.ai hostów Distil-Whisper w GPU, tak aby liczba parametrów nie wpływała na wydajność klienta.
Distil-Whisper akceptuje każdy format obsługi STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI i inne. Wynik jako TXT, SRT, VTT, DOCX, JSON lub PDF.
Tak. Dializacja głośnika biegnie obok Distil-Whisper dla każdej transkrypcji — każdy głośnik jest oznaczony i można je później zmienić w edytorze.
Tak. Distil-Whisper uruchamia w naszym zarządzanym środowisku – audio jest przetwarzany i usuwany domyślnie i nigdy nie używany do szkolenia bez wyraźnego opt-in. Pro plany dodają klient-side szyfrowanie do transkrypcji w pokoju.
Użyj narzędzia porównania-stt, aby uruchomić Distil-Whisper w stosunku do jakiegokolwiek innego modelu obsługiwanego w tym samym audio – zobaczysz WER, liczbę segmentów, etykiety głośnika i wyniki ufności po stronie. Porównanie Distil-Whisper ws Whisper Large V3 jest najczęściej uruchomione.
Tak. Określić "distil-whisper" jako parametr modelu w końcowym punktie końcowym /v1/transcribe. Python i Node.js SDKs zawierają Distil-Whisper przykładów. Darmowy poziom API obejmuje 100 minut/miesiąc.
Tak. Ponieważ Distil-Whisper jest 8802-licenzowany, możesz go sam-host. STT.ai stron otwartego źródła wykazuje repo i wagi projektu. Większość zespołów produkcyjnych korzysta z naszej hosted wersji, aby pominąć zamówienia GPU, modele swaps i ops.