Transcribe with SenseVoice
5.5%
WER
50
Languages
50.0x
Speed
MIT
License
About SenseVoice
Model Info
- ProviderFunAudioLLM
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Często zadawane pytania
SenseVoice jest modelem mowy do tekstu przez FunAudioLLM. STT.ai hosts SenseVoice na naszej infrastrukturze GPU, dzięki czemu można go wykorzystać bez dostarczania własnego sprzętu – wyślij audio lub wideo i wybierz SenseVoice z wybieracza modeli.
W odniesieniu do standardowych poziomów odniesienia SenseVoice osiąga około 5.5% Błędów Word. Dokładność rzeczywistego świata zależy od jakości dźwięku, akcentu i języka; w przypadku głośnych lub akcentowanych nagrań, oczekuje się kilku punktów procentowych wyższych WER.
SenseVoice biegnie na wolnym poziomie STT.ai – każdy odwiedzający otrzymuje 600 minut/miesiąc bez kosztu. Płacone plany dodają dłużej limity na pliki, prywatne transkrypty i priorytetowe kolejki.
SenseVoice jest wydane pod MIT, licencja otwartego źródła. Można samodzielnie gospodarować SenseVoice na własnym sprzętie lub korzystać z naszej hospodowanej wersji – obie są komercyjne użyteczne.
SenseVoice obsługuje 50 języków. Automatyczne wykrywanie wybiera właściwy język dla większości audio; można również wskazywać go ręcznie dla małego podnoszenia dokładności.
SenseVoice procesów audio w około 50.0x w czasie rzeczywistym na naszych GPU. 1-godzinny plik audio zakończy się w mniej niż 8802 minut; dłuższa kolejka plików i powiadomić za pośrednictwem e-maila.
SenseVoice ma 8802 parametrów. Większe modele są zazwyczaj bardziej dokładne, ale wolniej; STT.ai hostów SenseVoice w GPU, tak aby liczba parametrów nie wpływała na wydajność klienta.
SenseVoice akceptuje każdy format obsługi STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI i inne. Wynik jako TXT, SRT, VTT, DOCX, JSON lub PDF.
Tak. Dializacja głośnika biegnie obok SenseVoice dla każdej transkrypcji — każdy głośnik jest oznaczony i można je później zmienić w edytorze.
Tak. SenseVoice uruchamia w naszym zarządzanym środowisku – audio jest przetwarzany i usuwany domyślnie i nigdy nie używany do szkolenia bez wyraźnego opt-in. Pro plany dodają klient-side szyfrowanie do transkrypcji w pokoju.
Użyj narzędzia porównania-stt, aby uruchomić SenseVoice w stosunku do jakiegokolwiek innego modelu obsługiwanego w tym samym audio – zobaczysz WER, liczbę segmentów, etykiety głośnika i wyniki ufności po stronie. Porównanie SenseVoice ws Whisper Large V3 jest najczęściej uruchomione.
Tak. Określić "sensevoice" jako parametr modelu w końcowym punktie końcowym /v1/transcribe. Python i Node.js SDKs zawierają SenseVoice przykładów. Darmowy poziom API obejmuje 100 minut/miesiąc.
Tak. Ponieważ SenseVoice jest 8802-licenzowany, możesz go sam-host. STT.ai stron otwartego źródła wykazuje repo i wagi projektu. Większość zespołów produkcyjnych korzysta z naszej hosted wersji, aby pominąć zamówienia GPU, modele swaps i ops.