AIを使って寝てる間に文字起こしをしてもらいたい!
文字起こしをAIにやらせることができたらいいなあと思い立ち、とにかくやってみた。
私のラップトップはLenovoの「ThinkBook 16p G2 ACH Laptop - Type 20YM」。詳細スペックはこんな感じ。
構成
ハードウェア構成
- CPU: AMD Ryzen 7 5800H (3.20 GHz、8コア16スレッド)
- GPU: NVIDIA GeForce RTX 3060 Laptop GPU (6GB VRAM)
- メモリ: 40GB DDR4-3200 ※標準16GBから増設済み
- ストレージ: 512GB SSD PCIe
ソフトウェア環境
- OS: Windows 11 Pro (64bit)
- バージョン: 24H2
パフォーマンス的なお話
このスペックでは、Whisperの中〜大型モデル(medium、large)も快適に動作できた。たぶんRTX 3060にある6GB VRAMがうまいことやってくれてる感じ。正直AIを動かすならVRAMはあればあるだけいいかも。
GPUなしでも動くっぽいけれど、さすがにSurfaceとかだと処理速度的に厳しいかも。わかんない。
音声データの準備
まずは録音から。
スマホでやるのがお手軽かな?
文字起こし
手で文字起こしなんてやってられない!
OpenAI Whisperをローカルで動かせばちょちょいと文字起こしができる!
Zennで参考になりそうな記事を探していたら、Webアプリとして作り上げていた人がいたので、とりあえずこの方のプロジェクトを動かせるようにしてみる。


Whisperのモデルについて
実はWhisperはいくつかの実装がある。
OpenAI謹製Whisper
まず、OpenAI謹製のWhisper。PythonとPyTorchを使ってる。
安定していていい感じ。
C++実装のWhisper.cpp
それを高速化する目的にC++で書き直したモデルがWhisper.cpp。ざっくり3-10倍速くなるらしい。GPUのないマシンでもサクサク動くからネットの記事なんかでもよくつかわれているのを見るのはこっち。
とはいえ、そもそもC++のビルド環境を導入するのめんどいし、ツールは少なくしたいのでPythonで閉じたくて今回は使わなかった。
CTranslate2を使って高速化をしたfaster-whisper
Whisper.cppがシンプルに高速なシステムで実装することで爆速にしたのに対して、faster-whisperは最適化をすることで爆速にした実装。
あんまりよくわかってないけど、初めてのAIだったこともあって、エラーが起きたときに場合の切り分けができるとは思えなかったので、使わなかった。
どっちも今度使ってみたいね。
導入
PyTorchの導入までがめんどくさい。
PyTorchはこうした機械学習系の王道ライブラリなのだが、PyTorchがいろいろな周辺システムのバージョンを指定してくる。自分のシステム(環境)とPyTorchの指定バージョンを考えて逆算して様々なパッケージをインストールしなければまともに動かない。別にGPUを使わなくても動くのだが、CPUをぶん回して処理をすればAIを動かしている間まともにパソコンが操作できない。せっかくGPUがある環境ならGPUを使って処理をお任せしたい。
anacondaの導入
AIといったらPythonでしょうから、とりあえず全部入りディストリビューションということでanacondaを入れる。
CUDAの導入
CUDAをとりあえずインストールすればいいというわけでもない。各GPUには対応バージョンが存在し、そのバージョンはnvidia-smi
コマンドで確認できる。
> nvidia-smi
Wed Aug 6 21:28:13 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 577.00 Driver Version: 577.00 CUDA Version: 12.9 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Driver-Model | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 3060 ... WDDM | 00000000:01:00.0 Off | N/A |
| N/A 52C P8 10W / 60W | 0MiB / 6144MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
CUDA Version: 12.9とあるので「CUDA 12.9」とググり、ダウンロードしてインストールを済ませる。

CUDA 12.9のダウンロードページ
cuDNNの導入
cuDNN
cuDNNは配布方法が変わったらしく、特にユーザー登録などしなくても普通にダウンロードできるようになった。いろいろ探し回ったが、ここからダウンロードできる。

cuDNNはここからダウンロードできた
これで導入が済んだかと思いきや、動かしたときにGPUを使ってくれなかった。
どうやらPyTorchのバージョン指定に合わせてやらねばならないようだ。
いろいろ考えたが、Pythonのほうでバージョンを固定した方が楽だと思ったので、次のコマンドでcuda-versionを12に指定してインストールする。
> conda install nvidia::cudnn cuda-version=12
PyTorchの導入

Get Startedから環境にあったPyTorchを導入する。

こんな感じで自分の環境を指定すると、適切なPyTorchをインストールするコマンドを教えてくれる。
- PyTorch Build:Stable (2.8.0)
- Your OS: Windows
- Package: Pip
- Language: Python
- CUDA: 12.9
> pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu126
私はこのコマンドが出てきた
ということでコマンドをコマンドラインから実行してPyTorchの導入はOK。
ここまでの確認
ここまでいろいろやってきたが、要するにすべてPyTorchのためだ。ここでつまづくと先に進めないので、とにかくここまで行ったかを確かめる。
> python
>> import torch
>> torch.cuda.is_available() // tureが返ってくればOK
Gitの導入
インストールにでてくるいろいろな選択肢は面倒なのでデフォのまま全部「次へ」。

仮想環境の立ち上げ
anaconda navigatorから仮想環境を作っておく。別にコマンドラインからやってもいいです。
私はWhisepr
という名前の仮想環境を作りました。
Whisperの導入
> pip install -U openai-whisper
ffmpegの導入
音声や動画をいじる際に何かと便利なのでこの際ffmpegを導入しておく。

release buildsから7zipファイルをダウンロード。
仮想環境でだけ使いたい人はこっちでffmpegを導入
conda-forgeからffmpeg
> conda install -c conda-forge ffmpeg
Pythonパッケージの導入
> conda install flask streamlit
実行方法
st-transcribeを実行する
ターミナル一つ目
> conda activate Whisper
> python server_fastapi.py
ターミナル二つ目
> conda activate Whisper
> streamlit run app_fastapi.py
単にWhisperを使う
単純にファイルを解析してもらう
> conda activate Whisper
> whisper audio.flac audio.mp3 audio.wav --model turbo
感想
正直一人で使うだけで、メモリの余裕もないので、コマンドラインから素直に処理をさせるだけで私には十分だった。
文字起こしの精度だが、Largeモデルでは非常に実用的な水準の品質が出ていると思う。ただ、速度が1xなので、音声ファイルの長さ分だけ処理に時間がかかるということ。1時間の音声ファイルの解析に1時間かかるのでうーん。Turboモデルは速度が出てとてもいいのだけれど、やはり精度は落ちる。
音声ファイルの容量制限がないのもいい。何時間の録音だろうが、すきにAIに投げれば処理してもらえるのですごくいい。ローカルで動かしているので、API使用制限といったものなんてないので何も考えずに使えるのは心が軽くていい。
改善の余地はあるかも知れないが、初期投資ゼロで何かのサービスを契約することもなく非常に実用的な文字起こしアシスタントを使うことができるようになったと考えると満足度はとても高い。おすすめ。
余談
記事を書いている途中にgpt-ossが発表され、GPT-5が登場し、Claude Opus 4.1が出てきて……
AIの分野は動きが速いうえに多い!しかも、どんどん高性能で出ても届きやすくなっているからうれしい。もうしばらくしたら本当にお手軽パーソナルAIが実現できるかもね。楽しみ