技術

AIを使って寝てる間に文字起こしをしてもらいたい！

Photo by Ritupon Baishya / Unsplash

文字起こしをAIにやらせることができたらいいなあと思い立ち、とにかくやってみた。

私のラップトップはLenovoの「ThinkBook 16p G2 ACH Laptop - Type 20YM」。詳細スペックはこんな感じ。

構成

ハードウェア構成

CPU: AMD Ryzen 7 5800H (3.20 GHz、8コア16スレッド)
GPU: NVIDIA GeForce RTX 3060 Laptop GPU (6GB VRAM)
メモリ: 40GB DDR4-3200 ※標準16GBから増設済み
ストレージ: 512GB SSD PCIe

ソフトウェア環境

OS: Windows 11 Pro (64bit)
バージョン: 24H2

パフォーマンス的なお話

このスペックでは、Whisperの中〜大型モデル（medium、large）も快適に動作できた。たぶんRTX 3060にある6GB VRAMがうまいことやってくれてる感じ。正直AIを動かすならVRAMはあればあるだけいいかも。

GPUなしでも動くっぽいけれど、さすがにSurfaceとかだと処理速度的に厳しいかも。わかんない。

音声データの準備

まずは録音から。

スマホでやるのがお手軽かな？

文字起こし

手で文字起こしなんてやってられない！

OpenAI Whisperをローカルで動かせばちょちょいと文字起こしができる！

Zennで参考になりそうな記事を探していたら、Webアプリとして作り上げていた人がいたので、とりあえずこの方のプロジェクトを動かせるようにしてみる。

Whisperのモデルについて

実はWhisperはいくつかの実装がある。

OpenAI謹製Whisper

まず、OpenAI謹製のWhisper。PythonとPyTorchを使ってる。

安定していていい感じ。

Whisper が登場

C++実装のWhisper.cpp

それを高速化する目的にC++で書き直したモデルがWhisper.cpp。ざっくり3-10倍速くなるらしい。GPUのないマシンでもサクサク動くからネットの記事なんかでもよくつかわれているのを見るのはこっち。

とはいえ、そもそもC++のビルド環境を導入するのめんどいし、ツールは少なくしたいのでPythonで閉じたくて今回は使わなかった。

CTranslate2を使って高速化をしたfaster-whisper

Whisper.cppがシンプルに高速なシステムで実装することで爆速にしたのに対して、faster-whisperは最適化をすることで爆速にした実装。

あんまりよくわかってないけど、初めてのAIだったこともあって、エラーが起きたときに場合の切り分けができるとは思えなかったので、使わなかった。

どっちも今度使ってみたいね。

導入

PyTorchの導入までがめんどくさい。

PyTorchはこうした機械学習系の王道ライブラリなのだが、PyTorchがいろいろな周辺システムのバージョンを指定してくる。自分のシステム（環境）とPyTorchの指定バージョンを考えて逆算して様々なパッケージをインストールしなければまともに動かない。別にGPUを使わなくても動くのだが、CPUをぶん回して処理をすればAIを動かしている間まともにパソコンが操作できない。せっかくGPUがある環境ならGPUを使って処理をお任せしたい。

anacondaの導入

AIといったらPythonでしょうから、とりあえず全部入りディストリビューションということでanacondaを入れる。

CUDAの導入

CUDAをとりあえずインストールすればいいというわけでもない。各GPUには対応バージョンが存在し、そのバージョンはnvidia-smiコマンドで確認できる。

> nvidia-smi

Wed Aug  6 21:28:13 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 577.00                 Driver Version: 577.00         CUDA Version: 12.9     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                  Driver-Model | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 3060 ...  WDDM  |   00000000:01:00.0 Off |                  N/A |
| N/A   52C    P8             10W /   60W |       0MiB /   6144MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

CUDA Version: 12.9とあるので「CUDA 12.9」とググり、ダウンロードしてインストールを済ませる。

cuDNNの導入

cuDNN

cuDNNは配布方法が変わったらしく、特にユーザー登録などしなくても普通にダウンロードできるようになった。いろいろ探し回ったが、ここからダウンロードできる。

これで導入が済んだかと思いきや、動かしたときにGPUを使ってくれなかった。

どうやらPyTorchのバージョン指定に合わせてやらねばならないようだ。

いろいろ考えたが、Pythonのほうでバージョンを固定した方が楽だと思ったので、次のコマンドでcuda-versionを12に指定してインストールする。

> conda install nvidia::cudnn cuda-version=12

PyTorchの導入

Get Startedから環境にあったPyTorchを導入する。

こんな感じで自分の環境を指定すると、適切なPyTorchをインストールするコマンドを教えてくれる。

PyTorch Build:Stable (2.8.0)
Your OS: Windows
Package: Pip
Language: Python
CUDA: 12.9

> pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu126

私はこのコマンドが出てきた

ということでコマンドをコマンドラインから実行してPyTorchの導入はOK。

ここまでの確認

ここまでいろいろやってきたが、要するにすべてPyTorchのためだ。ここでつまづくと先に進めないので、とにかくここまで行ったかを確かめる。

> python
  >> import torch
  >> torch.cuda.is_available() // tureが返ってくればOK

Gitの導入

インストールにでてくるいろいろな選択肢は面倒なのでデフォのまま全部「次へ」。

仮想環境の立ち上げ

anaconda navigatorから仮想環境を作っておく。別にコマンドラインからやってもいいです。

私はWhiseprという名前の仮想環境を作りました。

Whisperの導入

> pip install -U openai-whisper

ffmpegの導入

音声や動画をいじる際に何かと便利なのでこの際ffmpegを導入しておく。

release buildsから7zipファイルをダウンロード。

仮想環境でだけ使いたい人はこっちでffmpegを導入

conda-forgeからffmpeg

> conda install -c conda-forge ffmpeg

Pythonパッケージの導入

> conda install flask streamlit

実行方法

st-transcribeを実行する

ターミナル一つ目

> conda activate Whisper
> python server_fastapi.py

ターミナル二つ目

> conda activate Whisper
> streamlit run app_fastapi.py

単にWhisperを使う

単純にファイルを解析してもらう

> conda activate Whisper
> whisper audio.flac audio.mp3 audio.wav --model turbo

感想

正直一人で使うだけで、メモリの余裕もないので、コマンドラインから素直に処理をさせるだけで私には十分だった。

文字起こしの精度だが、Largeモデルでは非常に実用的な水準の品質が出ていると思う。ただ、速度が1xなので、音声ファイルの長さ分だけ処理に時間がかかるということ。1時間の音声ファイルの解析に1時間かかるのでうーん。Turboモデルは速度が出てとてもいいのだけれど、やはり精度は落ちる。

音声ファイルの容量制限がないのもいい。何時間の録音だろうが、すきにAIに投げれば処理してもらえるのですごくいい。ローカルで動かしているので、API使用制限といったものなんてないので何も考えずに使えるのは心が軽くていい。

改善の余地はあるかも知れないが、初期投資ゼロで何かのサービスを契約することもなく非常に実用的な文字起こしアシスタントを使うことができるようになったと考えると満足度はとても高い。おすすめ。

余談

記事を書いている途中にgpt-ossが発表され、GPT-5が登場し、Claude Opus 4.1が出てきて……

AIの分野は動きが速いうえに多い！しかも、どんどん高性能で出ても届きやすくなっているからうれしい。もうしばらくしたら本当にお手軽パーソナルAIが実現できるかもね。楽しみ