བཅོས་མའི་བློ་རིག་གི་དཔེ་ཚད་
སྐད་སྒྱུར་བྱེད་ཐབས་འདི་གདམ་ཁ་འབད། — སྐད་ཡིག་ངོ་སྤྲོད་ཐབས་ལམ་ཁག་ནང་ལས་ བདེན་ཁུངས་, མགྱོགས་ཚད་, དང་སྐད་ཡིག་རྒྱབ་སྐྱོར་ག་བསྡུར་བྱ།
ཐད་ཀར་དཔེ་སྟོན་གང་ཞིག་གདམ་ཁ་བྱེད་དགོས་
ཡིག་སྒྱུར་གྱི་མ་འདྲཝའི་དཔེ་ཚད་འདི་ རང་རེའི་དགོས་མཁོ་དང་བསྟུན་པའི་དཔེ་ཚད་དེ་བལྟ་འོང་།
| དཔེ་ཆ། | WER | Speed | སྐད་ཡིག་ | དམིགས་བསལ་ |
|---|---|---|---|---|
| STT.ai Enhanced | 3.2% | 160.0x | 100 | STT.ai གི་གཙོ་གནད་སྐད་ཡིག་ལས་ཡིག་སྒྱུར་ཐབས་ལམ་འདི་ རིགས་སྣ་ཡོངས་ཀྱི་ངེས་བདེན་དང་མགྱོགས་ཚད་ཅན་དང་ བཟོ་སྐྲུན་གྱི་ལཱ་ལྗིད་ཚད་ལ་དམིགས་ཏེ་བཟོ་བཀོད་འབད་དེ་འདུག། |
| Whisper Large V3 | 4.2% | 8.0x | 99 | OpenAI གི་སྦོམ་དང་ངེས་གཏན་បំផុតགྱི་ Whisper དཔེ་ཚད་. སྐད་ཡིག་ ༩༩ དང་ སྐད་ཡིག་མ་འདྲཝ་ ༡༠༠ གི་རྒྱབ་སྐྱོར་ལེགས་ཤོམ་ཡོད། |
| Whisper Turbo | 5.1% | 32.0x | 99 | མགྱོགས་ཚད་ཡར་རྒྱས་བཏང་ཡོད་པའི་ OpenAI གི་ Whisper རིགས་སྣ། སྦོམ་ V3 ལས་ ༤ ដងམགྱོགས་དྲག་དང་ … |
| NVIDIA Canary | 3.5% | 45.0x | 4 | NVIDIA གི་སྐད་ཡིག་ཐོག་གི་མཐོ་སྒང་གི་གཏན་གཏན་དང་མཉམ་པའི་ སྣ་མང་ལས་རིམ་གྱི་ ASR དཔེ་ཚད་འདི་ NeMo གཞི་བཀོད་ཐོག་བཟོ་བཀོད་འབད་དེ་འདུག |
| Moonshine | 7.8% | 80.0x | 1 | ཐད་ཀར་ལག་ཆས་ལ་དམིགས་བསལ་བཟོ་བཀོད་འབད་ཡོད་མི་ ཉུང་ཤོས་ཀྱི་དུས་ཚོད་འགོད་དང་གཅིག་ཁར་ Raspberry Pi ཐོག་ལུ་བཙུགས། |
| NVIDIA Parakeet | 3.0% | 55.0x | 1 | NVIDIA གི་ CTC ཐོག་གཞི་བཙུགས་འབད་མི་ སྐད་ཡིག་ ASR གི་དཔེ་ཚད་ སྐད་ཡིག་གི་དཔེ་ཚད་ནང་ གཏན་ཏོག་ཏོ་དང་ རང་དབང་གི་དཔེ་ཚད་ … |
| SenseVoice | 5.5% | 50.0x | 50 | སྐད་ཡིག་སྣ་ཚོགས་ཀྱི་སྐད་བརྡ་རྟོགས་པའི་དཔེ་ཚད་དང་སེམས་ཀྱི་ཚོར་སྣང་ངོས་འཛིན་བྱེད་པ། |
| Distil-Whisper | 5.8% | 48.0x | 99 | Whisper Large V3 གི་ 6x མགྱོགས་དྲག་དང་ 49% གི་ཚད་གཞི་ཉུང་སུ་ཡོད་དེ་འབད་རུང་ གཏན་གཏན་སྦེ་བཞག་ཚུགས། |
| Vosk | 12.0% | 100.0x | 20 | དྲ་རྒྱ་མེད་པའི་ཐོག་ལས་ལཱ་འབད་དོ། ངོ་སྤྲོད་གསལ་པོར་བཤད་པ་དང་ བཀོལ་སྤྱོད་ཀྱི་གནད་དོན་ཚུ་ལུ་ དམིགས་བསལ་གྱིས་འོས་འབབ་ཆེ། |
ཚིག་གི་འཛོལ་བ་ཚད་ (WER) ཟེར་བ་དེ་ག་དེ་ཡིན་ནམ།
ཚིག་གི་འཛོལ་བ་ཚད་ (WER) འདི་ སྐད་ཡིག་ངོས་འཛིན་བྱེད་པའི་ གཏན་འབེབས་ཚད་འཇལ་ཐབས་ཀྱི་ གནས་ཚད་ཀྱི་ཚད་འཇལ་ཐབས་ཡིན། སྐད་ཡིག་གི་ཡིག་སྒྱུར་ནང་ ཚིག་གི་བརྒྱ་ཆ་ ཁུངས་གཏུག་དང་མ་འདྲཝ་ཡོད་ན་རྩིས་བཏོན་དོ། ཚིག་གི་འཛོལ་བ་ཚད་ ༥% ཟེར་བ་འདི་ ཚིག་༡༠༠ ནང་ལས་ ༥ ནང་ལུ་འཛོལ་བ་ཡོད་ནུག། ཉུང་སུ་ཅིག་དེ་ལེགས་ཤོམ་ཨིན།
Professional human transcriptionists typically achieve a WER of 4-5%. The best AI models now match or approach human-level accuracy on clean audio.
གང་འདྲའི་དཔེ་ཚད་ལག་ལེན་འཐབ་འོང་ག་མ་ཤེས་པར་འདུག་?
ང་བཅས་ཀྱི་ default བརྟག་དཔྱད་ — སྒྲ་དྲི་རོ་ཆེ་ཆུང་ V3 ཀྲུ་བ་ཨེ་གི་མགྱོགས་ཚད་དང་གཏན་གཏན་ཅན་གྱི་ལེགས་ཤའི་འདྲ་མཉམ་འདི་བྱིན་དོ། འགོ་བཙུགས་ཐབས་ལ་རང་དབང་, ཐོ་བཀོད་མ་དགོ་པར་.
འགོ་བཙུགས་ ཡིག་སྒྱུར་སྒེར་གྱི་