સાથે ટ્રાન્સક્રાઇબ SenseVoice

જાહેર ઉપલબ્ધ ઓડિયો અને વિડિયો સાથે કામ કરે છે. DRM-સુરક્ષિત સમાવિષ્ટો આધારભૂત નથી.

વધારા માટે સુધારો
Private transcript
ટ્રાન્સક્રિપ્ટ સાથે વાતચીત કરો
Pro સાથે તાળુ ખોલો →
ફાઇલ અહીં મૂકો અથવા બ્રાઉઝ કરવા માટે ક્લિક કરો
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ૨GB સુધી
વધારા માટે સુધારો
Private transcript
ટ્રાન્સક્રિપ્ટ સાથે વાતચીત કરો
Pro સાથે તાળુ ખોલો →
વધારા માટે સુધારો
રેકોર્ડિંગ: 0:00
વાસ્તવિક સમય વૉશ (તરત)
વધારાયેલ Whisper (ચોક્કસ)
જાહેર કડીઓ: ૨૪ કલાક, માત્ર લખાણ · નોંધણી કરો 7d + ઓડિયો માટે · પ્રો ખાનગી કડીઓ માટે

લખાણમાં વાસ્તવિક સમયની બોલી. AI આપોઆપ-સમાધાન કરે છે જેમ તમે બોલો છો - લાંબી બોલી સાથે ચોકસાઈ સુધરે છે.

તમારું માઇક્રોફોન પહેલેથી ચકાસો
❤️ STT.ai ને પ્રેમ કરો છો? તમારા મિત્રોને કહી દો!
તમે તમારી મુક્ત લખાણો વાપરી છે

600 મિનિટ/મહિના મેળવવા માટે મફત નોંધણી કરો, અથવા અસીમાત લખાણો માટે અપગ્રેડ કરો.

૧૦ મુક્ત મિનિટ/દિવસ નોંધણી સાથે 600 મિનિટ મુક્ત ક્રેડિટ કાર્ડ નથી એનક્રિપ્ટ થયેલ
મફત નોંધણી કરો →
5.5%
WER
50
Languages
50.0x
Speed
MIT
License

વિશે SenseVoice

SenseVoice is a speech foundation model from FunAudioLLM that goes beyond transcription. It supports 50+ languages and includes capabilities for emotion recognition, audio event detection, and inverse text normalization in a single model.

વારંવાર પૂછાતા પ્રશ્નો

SenseVoice is a speech-to-text model by FunAudioLLM. STT.ai hosts SenseVoice on our GPU infrastructure so you can use it without provisioning your own hardware — upload audio or video and pick SenseVoice from the model picker.

પ્રમાણભૂત બેન્ચમાર્ક પર, SenseVoice એ 5.5% શબ્દ ભૂલ દરને આસપાસ મેળવે છે. વાસ્તવિક-વિશ્વની ચોકસાઈ ઓડિયો ગુણવત્તા, ઉચ્ચારણ અને ભાષા પર આધારિત છે; ધુમાડાવાળા અથવા ઉચ્ચારણવાળા રેકોર્ડિંગ માટે, થોડા ટકા પોઇન્ટ્સ ઊંચા WER ની અપેક્ષા રાખો.

SenseVoice STT.ai ની મુક્ત સ્તરે ચાલે છે - દરેક મુલાકાતીને કોઈ ખર્ચ વગર 600 મિનિટ/મહિના મળે છે. ચૂકવેલ યોજનાઓ લાંબી ફાઇલ મર્યાદા, ખાનગી ટ્રાન્સક્રિપ્ટ્સ અને પ્રાથમિકતા કતાર લગાવવી ઉમેરે છે.

SenseVoice MIT ની નીચે બહાર પાડવામાં આવે છે, એક પરવાનગી આપતી ઓપન-સોર્સ લાઇસન્સ. તમે તમારા પોતાના હાર્ડવેરમાં SenseVoice ને સ્વયં-હોસ્ટ કરી શકો છો અથવા અમારી હોસ્ટ કરેલ આવૃત્તિનો ઉપયોગ કરી શકો છો - બંને વાણિજ્યિક રીતે ઉપયોગી છે.

SenseVoice 50 ભાષાઓને આધાર આપે છે. આપમેળે-શોધ એ મોટાભાગના ઓડિયો માટે સાચી ભાષા પસંદ કરે છે; તમે તેને નાની ચોકસાઈ માટે જાતે પણ સ્પષ્ટ કરી શકો છો.

SenseVoice ઓડિયો પ્રક્રિયાઓ અમારા GPUs પર 50.0x વાસ્તવિક સમય પર. 1-કલાકની ઓડિયો ફાઈલ 1 મિનિટમાં સમાપ્ત થાય છે; લાંબી ફાઈલો કતારમાં અને જ્યારે પૂર્ણ થાય ત્યારે ઈમેઈલ દ્વારા સૂચિત કરે છે.

SenseVoice પાસે 234M પરિમાણો છે. મોટા મોડેલો વધુ ચોક્કસ હોય છે પરંતુ ધીમા; STT.ai GPU પર SenseVoice યજમાન છે તેથી પરિમાણ ગણતરી તમારી ક્લાયન્ટ-સાઇડ કાર્યક્ષમતા અસર કરતી નથી.

SenseVoice દરેક બંધારણને સ્વીકારે છે કે જે STT.ai આધાર આપે છે — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, અને અન્ય. આઉટપુટ TXT, SRT, VTT, DOCX, JSON, અથવા PDF તરીકે.

હા. સ્પીકર ડેટાબેઝ દરેક અનુવાદ માટે SenseVoice ની સાથે ચાલે છે - દરેક સ્પીકર ને લેબલ કરેલ છે અને તમે પછી સંપાદકમાં તેનું નામ બદલી શકો છો.

હા. SenseVoice અમારા સંચાલિત વાતાવરણમાં ચાલે છે - ઓડિયો મૂળભૂત રીતે પ્રક્રિયા કરેલ છે અને કાઢી નાખવામાં આવે છે અને સ્પષ્ટ રીતે પસંદગી કર્યા વિના તાલીમ માટે ક્યારેય વપરાય નહિં. પ્રો યોજનાઓ અસ્થિર ટ્રાન્સક્રિપ્ટ્સ માટે ક્લાયન્ટ-સાઇડ એનક્રિપ્શન ઉમેરે છે.

SenseVoice ને કોઈપણ અન્ય આધારભૂત મોડેલ સામે એ જ ઓડિયો પર ચલાવવા માટે સરખામણી-stt સાધનનો ઉપયોગ કરો - તમે WER, સેગમેન્ટ ગણતરી, સ્પીકર લેબલ્સ, અને વિશ્વાસ સ્કોર બાજુ-બે-બાજુ જોશો. SenseVoice વિ Whisper Large V3 સરખામણી સૌથી સામાન્ય રીતે ચલાવે છે.

હા. /v1/transcribe અંતિમબિંદુ પર મોડેલ પરિમાણ તરીકે "sensevoice" ને સ્પષ્ટ કરો. Python અને Node.js SDKs SenseVoice ઉદાહરણો સમાવે છે. મુક્ત API સ્તરમાં 100 મિનિટ/મહિના સમાવે છે.

હા. કારણ કે SenseVoice એ MIT-લાઇસન્સ થયેલ છે, તમે તેને સ્વયં-હોસ્ટ કરી શકો છો. STT.ai નું ઓપન-સોર્સ પાનું પ્રોજેક્ટ રેપો અને વજનોની યાદી કરે છે. મોટાભાગના ઉત્પાદન ટીમો GPU ખરીદી, મોડેલ સ્વેપ અને ઓપસને છોડવા માટે અમારી યજમાન આવૃત્તિ વાપરે છે.