Transcribe with Distil-Whisper

Fungerer med offentleg tilgjengeleg lyd og video. DRM-verna innhald er ikkje støtta.

Oppgrader til utvida
Private transcript
Prate med transkripsjon
Lås opp med Pro →
Slepp fil her eller trykk for å bla
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — opptil 2 GB
Oppgrader til utvida
Private transcript
Prate med transkripsjon
Lås opp med Pro →
Oppgrader til utvida
Opptak: 0:00
Sanntids Voks (instant)
Forbetra Whisper (nøyaktig)
Offentlege lenkjer: 24h, berre tekst · Meld deg på for 7d + audio · Pro for private lenkjer

Tale til tekst i sanntid. AI korrigerer automatisk når du snakkar — nøyaktigheita aukar med lengre tale.

Test mikrofonen først
❤️ Elskar du STT.ai? Fortel vennene dine!
Du har brukt opp dei frie transkripsjonane dine

Registrer deg gratis for å få 600 minutt/månad, eller oppgrader for ubegrenset transkripsjon.

10 ledig min/dag 600 min gratis ved påmelding Ingen kredittkort Kryptert
Meld deg på gratis →
5.8%
WER
99
Languages
48.0x
Speed
MIT
License

About Distil-Whisper

Ofte stilte spørsmål

Distil-Whisper er ein tale-til-tekst-modell frå Hugging Face. STT.ai er vert for Distil-Whisper på vår GPU-infrastruktur, slik at du kan bruka han utan å ha din eigen maskinvare — last opp lyd eller video og vel Distil-Whisper frå modellveljaren.

På standard målestokkar oppnår Distil-Whisper om lag 5.8% ordfeilrate. Nøyaktigheita i verkeleg liv avheng av lydkvalitet, aksent og språk. For støyande eller aksenterte opptak, kan du venta eit par prosentpoeng høgare WER.

Distil-Whisper køyrer på STT.ai sitt gratisnivå — kvar besøkjar får 600 minutt/månad utan kostnad. Betalte abonnement legg til lengre grense per fil, private transkripsjonar og prioritert kø.

Distil-Whisper er utgjeve under MIT, ein permissiv open kjeldekode-lisens. Du kan sjølv ha Distil-Whisper på din eigen maskinvare eller bruke vår vertsversjon — begge er kommersielt brukbare.

Distil-Whisper støttar 99 språk. Automatisk oppdaging vel det rette språket for dei fleste lydfiler. Du kan òg velja språket manuelt for å få ein liten forbetring av nøyaktigheita.

Distil-Whisper prosesserer lyd med om lag 48.0x sanntid på grafikkprosessorane våre. Ein 1-timers lydfil er ferdig på under 1 minutt. Lengre filer vert lagt i kø og varsla via e-post når dei er ferdige.

Distil-Whisper har 756M-parametrar. Større modeller har ein tendens til å vera meir nøyaktige, men tregare. STT.ai er vert for Distil-Whisper på GPU-en, så parametertalet påverkar ikkje ytinga på klientsida.

Distil-Whisper godtek alle formata STT.ai støttar — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI og andre. Utdata som TXT, SRT, VTT, DOCX, JSON eller PDF.

Ja. Diarisering av talarar køyrer saman med Distil-Whisper for kvar transkripsjon — kvar talar er merket og du kan endra namnet på dei i redigeringa etterpå.

Ja. Distil-Whisper køyrer i vårt administrerte miljø – lyd blir handsama og sletta som standard og blir aldri brukt til opplæring utan eksplisitt samtykke. Pro-planar legg til klientkryptering for avskriftar i ro.

Bruk verktøyet compare-stt for å køyra Distil-Whisper mot ein annan støtta modell på same lyd. Du vil sjå WER, segmenttal, høgtalarnamn og tiltrupoeng side om side. Samanlikninga Distil-Whisper vs Whisper Large V3 er den mest brukte.

Ja. Oppgje «distil-whisper» som modellparameter på /v1/transcribe-endepunktet. Python- og Node.js-SDK-ar inneheld Distil-Whisper-eksempela. Gratis API-nivå inkluderer 100 minutt/månad.

Ja. Sidan Distil-Whisper er MIT-lisensiert, kan du sjølv vera vert for det. STT.ai sin open kjeldekode-side viser prosjektarkivet og vektene. Dei fleste produksjonsteam brukar vår vertsversjon for å hoppa over GPU-innkjøp, modellbytte og operasjonar.