Transcribe with Distil-Whisper

Pracuje z publicznie dostępnym audio & wideo. Zawartość zabezpieczona DRM nie jest obsługiwana.

Aktualizacja dla poprawy
Private transcript
Rozmowa z transkrypcją
Odblokuj za pomocą Pro →
Przepuść plik tutaj lub kliknij aby przeglądać
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — do 2GB
Aktualizacja dla poprawy
Private transcript
Rozmowa z transkrypcją
Odblokuj za pomocą Pro →
Aktualizacja dla poprawy
Nagrywanie: 0:00
Realizacja czasu Vosk (instant)
Poprawa Szeptanie (dokładnie)
Odnośniki publiczne: 24h, tylko tekst · Zarejestruj się. dla 7d + audio · Prof. dla odnośników prywatnych

Przemówienie w czasie rzeczywistym do tekstu. AI automatycznie poprawia się w momencie, gdy mówisz – dokładność poprawia się przy dłuższej mowie.

Najpierw sprawdź mikrofon
❤️ Love STT.ai? Tell your friends!
Użyłeś wolnych transkrypcji.

Zarejestruj się za darmo, aby otrzymać 600 minut/miesiąc, lub uaktualnić dla nieograniczonych transkrypcji.

10 bezpłatnych min/dzień 600 minut bezpłatnie z rejestracją Brak karty kredytowej Zaszyfrowane
Zarejestruj się za darmo →
5.8%
WER
99
Languages
48.0x
Speed
MIT
License

About Distil-Whisper

Często zadawane pytania

Distil-Whisper jest modelem mowy do tekstu przez Hugging Face. STT.ai hosts Distil-Whisper na naszej infrastrukturze GPU, dzięki czemu można go wykorzystać bez dostarczania własnego sprzętu – wyślij audio lub wideo i wybierz Distil-Whisper z wybieracza modeli.

W odniesieniu do standardowych poziomów odniesienia Distil-Whisper osiąga około 5.8% Błędów Word. Dokładność rzeczywistego świata zależy od jakości dźwięku, akcentu i języka; w przypadku głośnych lub akcentowanych nagrań, oczekuje się kilku punktów procentowych wyższych WER.

Distil-Whisper biegnie na wolnym poziomie STT.ai – każdy odwiedzający otrzymuje 600 minut/miesiąc bez kosztu. Płacone plany dodają dłużej limity na pliki, prywatne transkrypty i priorytetowe kolejki.

Distil-Whisper jest wydane pod MIT, licencja otwartego źródła. Można samodzielnie gospodarować Distil-Whisper na własnym sprzętie lub korzystać z naszej hospodowanej wersji – obie są komercyjne użyteczne.

Distil-Whisper obsługuje 99 języków. Automatyczne wykrywanie wybiera właściwy język dla większości audio; można również wskazywać go ręcznie dla małego podnoszenia dokładności.

Distil-Whisper procesów audio w około 48.0x w czasie rzeczywistym na naszych GPU. 1-godzinny plik audio zakończy się w mniej niż 8802 minut; dłuższa kolejka plików i powiadomić za pośrednictwem e-maila.

Distil-Whisper ma 8802 parametrów. Większe modele są zazwyczaj bardziej dokładne, ale wolniej; STT.ai hostów Distil-Whisper w GPU, tak aby liczba parametrów nie wpływała na wydajność klienta.

Distil-Whisper akceptuje każdy format obsługi STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI i inne. Wynik jako TXT, SRT, VTT, DOCX, JSON lub PDF.

Tak. Dializacja głośnika biegnie obok Distil-Whisper dla każdej transkrypcji — każdy głośnik jest oznaczony i można je później zmienić w edytorze.

Tak. Distil-Whisper uruchamia w naszym zarządzanym środowisku – audio jest przetwarzany i usuwany domyślnie i nigdy nie używany do szkolenia bez wyraźnego opt-in. Pro plany dodają klient-side szyfrowanie do transkrypcji w pokoju.

Użyj narzędzia porównania-stt, aby uruchomić Distil-Whisper w stosunku do jakiegokolwiek innego modelu obsługiwanego w tym samym audio – zobaczysz WER, liczbę segmentów, etykiety głośnika i wyniki ufności po stronie. Porównanie Distil-Whisper ws Whisper Large V3 jest najczęściej uruchomione.

Tak. Określić "distil-whisper" jako parametr modelu w końcowym punktie końcowym /v1/transcribe. Python i Node.js SDKs zawierają Distil-Whisper przykładów. Darmowy poziom API obejmuje 100 minut/miesiąc.

Tak. Ponieważ Distil-Whisper jest 8802-licenzowany, możesz go sam-host. STT.ai stron otwartego źródła wykazuje repo i wagi projektu. Większość zespołów produkcyjnych korzysta z naszej hosted wersji, aby pominąć zamówienia GPU, modele swaps i ops.