Transcribe with Whisper Turbo

Pracuje z publicznie dostępnym audio & wideo. Zawartość zabezpieczona DRM nie jest obsługiwana.

Aktualizacja dla poprawy
Private transcript
Rozmowa z transkrypcją
Odblokuj za pomocą Pro →
Przepuść plik tutaj lub kliknij aby przeglądać
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — do 2GB
Aktualizacja dla poprawy
Private transcript
Rozmowa z transkrypcją
Odblokuj za pomocą Pro →
Aktualizacja dla poprawy
Nagrywanie: 0:00
Realizacja czasu Vosk (instant)
Poprawa Szeptanie (dokładnie)
Odnośniki publiczne: 24h, tylko tekst · Zarejestruj się. dla 7d + audio · Prof. dla odnośników prywatnych

Przemówienie w czasie rzeczywistym do tekstu. AI automatycznie poprawia się w momencie, gdy mówisz – dokładność poprawia się przy dłuższej mowie.

Najpierw sprawdź mikrofon
❤️ Love STT.ai? Tell your friends!
Użyłeś wolnych transkrypcji.

Zarejestruj się za darmo, aby otrzymać 600 minut/miesiąc, lub uaktualnić dla nieograniczonych transkrypcji.

10 bezpłatnych min/dzień 600 minut bezpłatnie z rejestracją Brak karty kredytowej Zaszyfrowane
Zarejestruj się za darmo →
5.1%
WER
99
Languages
32.0x
Speed
MIT
License

About Whisper Turbo

Często zadawane pytania

Whisper Turbo jest modelem mowy do tekstu przez OpenAI. STT.ai hosts Whisper Turbo na naszej infrastrukturze GPU, dzięki czemu można go wykorzystać bez dostarczania własnego sprzętu – wyślij audio lub wideo i wybierz Whisper Turbo z wybieracza modeli.

W odniesieniu do standardowych poziomów odniesienia Whisper Turbo osiąga około 5.1% Błędów Word. Dokładność rzeczywistego świata zależy od jakości dźwięku, akcentu i języka; w przypadku głośnych lub akcentowanych nagrań, oczekuje się kilku punktów procentowych wyższych WER.

Whisper Turbo biegnie na wolnym poziomie STT.ai – każdy odwiedzający otrzymuje 600 minut/miesiąc bez kosztu. Płacone plany dodają dłużej limity na pliki, prywatne transkrypty i priorytetowe kolejki.

Whisper Turbo jest wydane pod MIT, licencja otwartego źródła. Można samodzielnie gospodarować Whisper Turbo na własnym sprzętie lub korzystać z naszej hospodowanej wersji – obie są komercyjne użyteczne.

Whisper Turbo obsługuje 99 języków. Automatyczne wykrywanie wybiera właściwy język dla większości audio; można również wskazywać go ręcznie dla małego podnoszenia dokładności.

Whisper Turbo procesów audio w około 32.0x w czasie rzeczywistym na naszych GPU. 1-godzinny plik audio zakończy się w mniej niż 8802 minut; dłuższa kolejka plików i powiadomić za pośrednictwem e-maila.

Whisper Turbo ma 8802 parametrów. Większe modele są zazwyczaj bardziej dokładne, ale wolniej; STT.ai hostów Whisper Turbo w GPU, tak aby liczba parametrów nie wpływała na wydajność klienta.

Whisper Turbo akceptuje każdy format obsługi STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI i inne. Wynik jako TXT, SRT, VTT, DOCX, JSON lub PDF.

Tak. Dializacja głośnika biegnie obok Whisper Turbo dla każdej transkrypcji — każdy głośnik jest oznaczony i można je później zmienić w edytorze.

Tak. Whisper Turbo uruchamia w naszym zarządzanym środowisku – audio jest przetwarzany i usuwany domyślnie i nigdy nie używany do szkolenia bez wyraźnego opt-in. Pro plany dodają klient-side szyfrowanie do transkrypcji w pokoju.

Użyj narzędzia porównania-stt, aby uruchomić Whisper Turbo w stosunku do jakiegokolwiek innego modelu obsługiwanego w tym samym audio – zobaczysz WER, liczbę segmentów, etykiety głośnika i wyniki ufności po stronie. Porównanie Whisper Turbo ws Whisper Large V3 jest najczęściej uruchomione.

Tak. Określić "whisper-turbo" jako parametr modelu w końcowym punktie końcowym /v1/transcribe. Python i Node.js SDKs zawierają Whisper Turbo przykładów. Darmowy poziom API obejmuje 100 minut/miesiąc.

Tak. Ponieważ Whisper Turbo jest 8802-licenzowany, możesz go sam-host. STT.ai stron otwartego źródła wykazuje repo i wagi projektu. Większość zespołów produkcyjnych korzysta z naszej hosted wersji, aby pominąć zamówienia GPU, modele swaps i ops.