Automatický přepis českých audio souborů na text
Zaznamenávám, jak jsem použil nástroj whisper.cpp pro převod audio záznamů na text.
Funguje mi na notebooku HP EliteBook 845 G7
s CPU AMD Ryzen 7 Pro 4750U
a operačním systémem Ubuntu 22.04 LTS
.
Projekt whisper.cpp
jsem zvolil, protože nemám k dispozici pořádnou grafickou kartu (~ GPU) a musím si vystačit s převodem pomocí procesoru (~ CPU).
Postup
Nejdřív převedeme audio soubor do formátu, s kterým si whisper.cpp
rozumí (WAV, 16 kHz).
Pak nainstalujeme whisper.cpp
a stáhneme model ggml-large-v3-q5_0.bin, který si poradí i s češtinou.
git clone https://github.com/ggerganov/whisper.cpp.git whisper.cpp && cd $_
make
bash ./models/download-ggml-model.sh large-v3-q5_0
A pak už můžeme spustit převod.
time ./main --model models/ggml-large-v3-q5_0.bin --threads 15 --no-prints --no-timestamps --output-txt --print-colors --language cs --file samples/example.wav
A je to.