Melda frá um feil / ynski um nýggjar møguleikar

Transkriptión SenseVoice

Name: SenseVoice
Author: FunAudioLLM

Virkar við almennum tilfari til ljóð og video. DRM-verjað innihald er ikki stuðlað.

Uppgradering til Enhanced

Private transcript

Spæla við transkriptión

Unlock with Pro →

Slepp eina fil her ella trýst fyri at leita

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — upp til 2GB

Batch upload multiple files with Pro

Uppgradering til Enhanced

Private transcript

Spæla við transkriptión

Unlock with Pro →

Uppgradering til Enhanced

Tala til tekst í sanntíð. AI loysir feilir sjálvvirkandi, tá tú talar - nákvæmnin verður betri við longri talu.

Test mikrofonina fyrst

10 free min/day 600 f.Kr. - 600 f.Kr. - 600 f.Kr. Kreditkort Kryptað

5.5%

WER

Languages

50.0x

Fart

MIT

Licens

Um SenseVoice

SenseVoice er ein talsgrundarlag model frá FunAudioLLM, sum fer út um transkriptión. Tað styður 50+ mál og inniheldur møguleikar fyri stemnings-kenning, uppsøgn av hljóm-hendingar, og inversa tekst-normalisering í einum einstøkum model.

Spøl, sum eru stuðlað av SenseVoice

Enskt

Spanskt

Franskt

Týskt

Kinesiskt

Japanskt

Koreanskt

Portugiskiskt

Arabiskt

Hindi

Russiskt

Italskt

Hálendskt

Turkiskt

Pólskt

Svenskt

Indonesiskt

Tailendskt

Vjetnamesiskt

Kekkiskt

Grikskt

Rumenskt

Ungarskt

Hebraiskt

Danskt

Finskt

Norskt

Ukrainskt

Malaiiskt

Bangla

Model info

ProviderFunAudioLLM
Arkitektur-
LicensMIT
UppdataðMar 2026

Models

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Ofta settir spurningar

SenseVoice er ein tal-til-tekst-modell frá FunAudioLLM. STT.ai er hýsa fyri SenseVoice á okkara GPU-infrakervi, so tú kanst brúka tað uttan at gera títt egna hardware tilfar - senda inn ljóð ella video og vel SenseVoice frá model-veljaranum.

SenseVoice hevur eina orðfeilstíð uppá umleið 5.5% í standard próvtøkum. Real-world accuracy depends on audio quality, accent, and language; for noisy or accented recordings, expect a few percentage points higher WER.

SenseVoice koyrir á STT.ai's free tier - hvør vitjandi fær 600 minuttir at byrja við uttan kostnað. gjaldandi ætlanirnar leggja longri per-file markið, privatar transkriptiónir og prioriterings kø.

SenseVoice er útgivið undir MIT, einari permissivari opnari upprunaloyvisskipan. Tú kanst sjálvur vera vertur fyri SenseVoice á tínum egna maskinvara ella brúka okkara vertur útgávu — báðar eru kommersielt nýtiligar.

SenseVoice stuðlar 50 málum. Auto-discover velur rætta málið fyri flestu ljóðini. Tú kanst eisini velja tað manuelt fyri at fáa eina lítla øgiligari nákvæmni.

SenseVoice processes audio at about 50.0x real-time on our GPUs. A 1-hour audio file finishes in under 1 minutes; longer files queue and notify by email when done.

SenseVoice hevur 234M parametrar. Størri modeller hava til at vera meira nákvæmar, men hægri; STT.ai hevur SenseVoice á GPU, so parameter-talið hevur ikki ávirkan á klient-síðuna.

SenseVoice tekur ímóti øllum sniðum, sum STT.ai stuðlar — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, og onnur. Úttøka sum TXT, SRT, VTT, DOCX, JSON, ella PDF.

Ja. Speaker diarization runs alongside SenseVoice for every transcription — each speaker is labelled and you can rename them in the editor afterwards.

Ja. SenseVoice koyrir í okkara umsitingarliga umhvørvi — ljóð verður viðgjørt og slettað sum standard og verður ongantíð brúkt til venjing uttan útgreiniliga atkvøðugreiðslu. Pro-planir leggja til klient-side-kryptering fyri transkriptiónir í hvíld.

No use the compare-stt tool to run SenseVoice against any other supported model on the same audio — you'll see WER, segment count, speaker labels, and confidence scores side-by-side. The SenseVoice vs Whisper Large V3 comparison is the most commonly run.

Ja. Tilgreina "sensevoice" sum modelparameter á /v1/transcribe endapunktinum. Python og Node.js SDK'ir innihalda SenseVoice dømi. Frítt API-stig fevnir um 100 minuttir/mánað.

Ja. Tí SenseVoice er MIT-licensed, tú kanst self-host it. STT.ai's open-source page lists the project repo and weights. Most production teams use our hosted version to skip GPU procurement, model swaps, and ops.

Transkriptión SenseVoice

Um SenseVoice

Spøl, sum eru stuðlað av SenseVoice

Model info

Models

Ofta settir spurningar

88.000 fólk.

88.000 fólk búgva har.

88.000 fólk búgva har.

88.000 fólk búgva har.

SenseVoice fólk búgva í býnum.

88.000 fólk.

SenseVoice fólk búgva har.

SenseVoice fólk búgva í býnum.

88.000 fólk búgva í býnum.

SenseVoice fólk búgva har.

SenseVoice fólk búgva í býnum.

SenseVoice fólk búgva í býnum.

SenseVoice fólk búgva í býnum.