Zgłosić błąd / żądanie funkcji

Transcribe z Whisper Large V3

Name: Whisper Large V3
Author: OpenAI

Pracuje z publicznie dostępnym audio & wideo. Zawartość zabezpieczona DRM nie jest obsługiwana.

Aktualizacja dla poprawy

Prywatny transkrypt

Rozmowa z transkrypcją

Odblokuj za pomocą Pro →

Przepuść plik tutaj lub kliknij aby przeglądać

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — do 2GB

Pakietowe wysyłanie plików wielokrotnych z Pro

Aktualizacja dla poprawy

Prywatny transkrypt

Rozmowa z transkrypcją

Odblokuj za pomocą Pro →

Aktualizacja dla poprawy

Przemówienie w czasie rzeczywistym do tekstu. AI automatycznie poprawia się w momencie, gdy mówisz – dokładność poprawia się przy dłuższej mowie.

Najpierw sprawdź mikrofon

10 bezpłatnych min/dzień 600 minut bezpłatnie z rejestracją Brak karty kredytowej Zaszyfrowane

Zarejestruj się za darmo →

4.2%

WER

Języki

8.0x

Prędkość

MIT

Licencja

O tematie Whisper Large V3

Whisper Large V3 jest przewodnim modelem OpenAI rozpoznawania mowy otwartej. Z 1,55 mld parametrów, oferuje wyjątkową dokładność w 99 językach. Wykorzystuje architekturę dekoderu transformatora przeszkoloną na 680 000 godzin wielojęzycznych danych audio.

Języki wspierane przez Whisper Large V3

Angielski

Hiszpański

Francuski

Niemiecki

Chiński

Japoński

Koreański

Portugalski

Arabski

Hindi

Rosyjski

Włoski

Niderlandzki

Turecki

Polski

Szwedzki

Indonezyjski

Tajski

Wietnamski

Czeski

Grecki

Rumuński

Węgierski

Hebrajski

Duński

Fiński

Norweski

Ukraiński

Malajski

Bengalski

Informacje o wzorze

DostawcaOpenAI
Architektura-
LicencjaMIT
UaktualnioneMar 2026

Powiązane modele

3.2% WER

5.1% WER

3.5% WER

7.8% WER

3.0% WER

Często zadawane pytania

Whisper Large V3 jest modelem mowy do tekstu przez OpenAI. STT.ai hosts Whisper Large V3 na naszej infrastrukturze GPU, dzięki czemu można go wykorzystać bez dostarczania własnego sprzętu – wyślij audio lub wideo i wybierz Whisper Large V3 z wybieracza modeli.

W odniesieniu do standardowych poziomów odniesienia Whisper Large V3 osiąga około 4.2% Błędów Word. Dokładność rzeczywistego świata zależy od jakości dźwięku, akcentu i języka; w przypadku głośnych lub akcentowanych nagrań, oczekuje się kilku punktów procentowych wyższych WER.

Whisper Large V3 biegnie na STT.ai bezpłatny poziom – każdy gościa otrzymuje 600 minut na rozpoczęcie bez kosztów. Wypłata planów dodaje dłużej limity na pliki, prywatne transkrypty i priorytetowe kolejki.

Whisper Large V3 jest wydane pod MIT, licencja otwartego źródła. Można samodzielnie gospodarować Whisper Large V3 na własnym sprzętie lub korzystać z naszej hospodowanej wersji – obie są komercyjne użyteczne.

Whisper Large V3 obsługuje 99 języków. Automatyczne wykrywanie wybiera właściwy język dla większości audio; można również wskazywać go ręcznie dla małego podnoszenia dokładności.

Whisper Large V3 procesów audio w około 8.0x w czasie rzeczywistym na naszych GPU. 1-godzinny plik audio zakończy się w mniej niż 8802 minut; dłuższa kolejka plików i powiadomić za pośrednictwem e-maila.

Whisper Large V3 ma 8802 parametrów. Większe modele są zazwyczaj bardziej dokładne, ale wolniej; STT.ai hostów Whisper Large V3 w GPU, tak aby liczba parametrów nie wpływała na wydajność klienta.

Whisper Large V3 akceptuje każdy format obsługi STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI i inne. Wynik jako TXT, SRT, VTT, DOCX, JSON lub PDF.

Tak. Dializacja głośnika biegnie obok Whisper Large V3 dla każdej transkrypcji — każdy głośnik jest oznaczony i można je później zmienić w edytorze.

Tak. Whisper Large V3 uruchamia w naszym zarządzanym środowisku – audio jest przetwarzany i usuwany domyślnie i nigdy nie używany do szkolenia bez wyraźnego opt-in. Pro plany dodają klient-side szyfrowanie do transkrypcji w pokoju.

Użyj narzędzia porównania-stt, aby uruchomić Whisper Large V3 w stosunku do jakiegokolwiek innego modelu obsługiwanego w tym samym audio – zobaczysz WER, liczbę segmentów, etykiety głośnika i wyniki ufności po stronie. Porównanie Whisper Large V3 ws Whisper Large V3 jest najczęściej uruchomione.

Tak. Określić "whisper-large-v3" jako parametr modelu w końcowym punktie końcowym /v1/transcribe. Python i Node.js SDKs zawierają Whisper Large V3 przykładów. Darmowy poziom API obejmuje 100 minut/miesiąc.

Tak. Ponieważ Whisper Large V3 jest 8802-licenzowany, możesz go sam-host. STT.ai stron otwartego źródła wykazuje repo i wagi projektu. Większość zespołów produkcyjnych korzysta z naszej hosted wersji, aby pominąć zamówienia GPU, modele swaps i ops.

Transcribe z Whisper Large V3

O tematie Whisper Large V3

Języki wspierane przez Whisper Large V3

Informacje o wzorze

Powiązane modele

Często zadawane pytania

Ile to jest Whisper Large V3?

Jak dokładne jest Whisper Large V3?

Czy Whisper Large V3 jest do użytku?

Jaką licencję stosuje Whisper Large V3?

Ile języków wspiera Whisper Large V3?

Jak szybko jest Whisper Large V3?

Jak duży jest model Whisper Large V3?

Jakie formaty audio mogą wpisać Whisper Large V3 transcribe?

Czy Whisper Large V3 wykrywa wiele głośników?

Czy moje dane są prywatne podczas stosowania Whisper Large V3?

W jaki sposób Whisper Large V3 porównuje się z innymi modelami STT?

Czy mogę użyć Whisper Large V3 za pośrednictwem API?

Mogę uruchomić Whisper Large V3 na własnym serwerze?