Transcribe with STT.ai Enhanced
3.2%
WER
100
Languages
160.0x
Speed
Proprietary
License
About STT.ai Enhanced
✦ Unlock Enhanced Model
Get access to our most accurate model with any paid plan. 3.2% WER, 160x real-time speed, 100+ languages.
View Plans →Model Info
- ProviderSTT.ai
- Architecture-
- LicenseProprietary
- UpdatedMar 2026
Często zadawane pytania
STT.ai Enhanced jest modelem mowy do tekstu przez STT.ai. STT.ai hosts STT.ai Enhanced na naszej infrastrukturze GPU, dzięki czemu można go wykorzystać bez dostarczania własnego sprzętu – wyślij audio lub wideo i wybierz STT.ai Enhanced z wybieracza modeli.
W odniesieniu do standardowych poziomów odniesienia STT.ai Enhanced osiąga około 3.2% Błędów Word. Dokładność rzeczywistego świata zależy od jakości dźwięku, akcentu i języka; w przypadku głośnych lub akcentowanych nagrań, oczekuje się kilku punktów procentowych wyższych WER.
STT.ai Enhanced to model premii – włączony do każdego wypłacanego STT.ai planu rozpoczynającego się o 5 dolarów/miesiąc. Wolni użytkownicy mogą podejrzeć STT.ai Enhanced na krótkich klipach; dłuższe pliki wymagają aktywnego planu.
STT.ai Enhanced jest dystrybuowany pod 8802. STT.ai hosted wersja obsługuje zgodność licencjonowania dla Ciebie, tak handlowe użytkowanie za pośrednictwem naszej usługi jest proste.
STT.ai Enhanced obsługuje 100 języków. Automatyczne wykrywanie wybiera właściwy język dla większości audio; można również wskazywać go ręcznie dla małego podnoszenia dokładności.
STT.ai Enhanced procesów audio w około 160.0x w czasie rzeczywistym na naszych GPU. 1-godzinny plik audio zakończy się w mniej niż 8802 minut; dłuższa kolejka plików i powiadomić za pośrednictwem e-maila.
STT.ai Enhanced ma 8802 parametrów. Większe modele są zazwyczaj bardziej dokładne, ale wolniej; STT.ai hostów STT.ai Enhanced w GPU, tak aby liczba parametrów nie wpływała na wydajność klienta.
STT.ai Enhanced akceptuje każdy format obsługi STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI i inne. Wynik jako TXT, SRT, VTT, DOCX, JSON lub PDF.
Tak. Dializacja głośnika biegnie obok STT.ai Enhanced dla każdej transkrypcji — każdy głośnik jest oznaczony i można je później zmienić w edytorze.
Tak. STT.ai Enhanced uruchamia w naszej prywatnej infrastrukturze — audio jest przetwarzane i usuwane domyślnie. Pro+ dodaje szyfrowanie klienta, tak że transkrypty są nieczytelne bez klucza, a Private Cloud pozwala na samodzielnego hosta STT.ai Enhanced w własnym VPC.
Użyj narzędzia porównania-stt, aby uruchomić STT.ai Enhanced w stosunku do jakiegokolwiek innego modelu obsługiwanego w tym samym audio – zobaczysz WER, liczbę segmentów, etykiety głośnika i wyniki ufności po stronie. Porównanie STT.ai Enhanced ws Whisper Large V3 jest najczęściej uruchomione.
Tak. Określić "stt-ai-enhanced" jako parametr modelu w końcowym punktie końcowym /v1/transcribe. Python i Node.js SDKs zawierają STT.ai Enhanced przykładów. Darmowy poziom API obejmuje 100 minut/miesiąc.
Licencjonowanie na STT.ai Enhanced ustawione jest o STT.ai; samohosting zależy od ich warunków. STT.ai hosting service runds STT.ai Enhanced na zarządzanym GPU, więc nie trzeba zajmować się tą integracją.