Whisper - transkribering
-
Hei,
Jeg har brukt Whisper.cpp en del de siste dagene og har hatt god nytte av det, selv om det blir en god del feil som må rettes.
Vår IT-avdeling har laget noen enkle nytte-scripts for å jobbe med whisper lokalt på maskinen fra shell (Mac): https://github.com/navikt/whisper-transcribe-shell
For å få det hele til å fungere må whisper legges i katalogen under:
https://github.com/ggerganov/whisper.cpp- init.sh for å kompilere og laste ned den største modellen.
- Legg mp4-filen i data-mappen.
- Kjør med run.sh
Dette er samme teknologi som UiO har laget som en intern tjeneste. Det er kjempespennende at slik teknologi har blitt mer tilgjengelig.
-
Takk for deling! Kanskje til nytte for å tekste og legge ut fleire møter, webinarer og liknande. Skal tipse kollegaer internt i Digdir.
Såg artikkel i Digi.no om liknande arbeid ved Universitetet i Oslo (UiO).
17.02.2023: «Bygde tjeneste som sparer dem for 20 millioner i året: − Dette er ny og sjokkerende teknologi» (krev abonnement)Dei skryt av at dei utvikla dette på rekordtid fordi Whisper er gjort tilgjengeleg som open kjeldekode, og at tekstane som blir generert frå lyd er på eit mykje høgare nivå enn med tidlegare løysingar, og handterer dialekter godt.
Korleis er køyretida på dette når ein køyrer lokalt på eiga maskin?
-
@livar-bergheim Her er ett eksempel fra et møte på 56 minutter. Dette tok 96 minutter (Jeg har en 2018-modell av macbook pro med Core i5, så det går nok kjappere på noe nyere)
whisper_print_timings: fallbacks = 1 p / 1 h whisper_print_timings: load time = 5637.30 ms whisper_print_timings: mel time = 15318.44 ms whisper_print_timings: sample time = 13265.51 ms / 15886 runs ( 0.84 ms per run) whisper_print_timings: encode time = 3197293.50 ms / 131 runs (24406.82 ms per run) whisper_print_timings: decode time = 2556895.50 ms / 15882 runs ( 160.99 ms per run) whisper_print_timings: total time = 5788981.00 ms
-
VG sin Mac-applikasjon er nå gratis tilgjengelig i AppStore:
Skal ha spart de over 3000 timer siden rett før jul.
Det som er bra med denne applikasjonen er støtten for å velge en linje i grensesnittet og høre det tilhørende lydsporet med mulighet til å rette opp feil i selve grensesnittet.