Automatický přepis českých audio souborů na text

Zaznamenávám, jak jsem použil nástroj whisper.cpp pro převod audio záznamů na text.

Funguje mi na notebooku HP EliteBook 845 G7 s CPU AMD Ryzen 7 Pro 4750U a operačním systémem Ubuntu 22.04 LTS.

Projekt whisper.cpp jsem zvolil, protože nemám k dispozici pořádnou grafickou kartu (~ GPU) a musím si vystačit s převodem pomocí procesoru (~ CPU).

Postup

Nejdřív převedeme audio soubor do formátu, s kterým si whisper.cpp rozumí (WAV, 16 kHz).

ffmpeg -i example.mp3 -ar 16000 -ac 1 -c:a pcm_s16le example.wav

Pak nainstalujeme whisper.cpp a stáhneme model ggml-large-v3-q5_0.bin, který si poradí i s češtinou.

git clone https://github.com/ggerganov/whisper.cpp.git whisper.cpp && cd $_
make
bash ./models/download-ggml-model.sh large-v3-q5_0

A pak už můžeme spustit převod.

time ./main --model models/ggml-large-v3-q5_0.bin --threads 15 --no-prints --no-timestamps --output-txt --print-colors --language cs --file samples/example.wav

A je to.

Podobný postup na blogu Simona Willisona.