最近 LLM(大規模言語モデル)をローカルやサーバで動かす機会が増えてきた。
GPU、VRAM、CPU、RAM……と用語はよく聞くけど、
どれが何に効いているのか、感覚的に分かりづらい
と感じることが多かったので、たとえ話で整理してみる。
(この記事はchatGPTに生成してもらって少し手直ししたもの)
結論を先に
LLMにおいては、
-
GPU / VRAM が主役
-
CPU / RAM は脇役だが、いないと成立しない
という関係になる。
たとえ話:LLMは「原稿を書く作家の仕事場」
LLMの推論環境を、原稿を書く作家の仕事場にたとえる。
GPU = 作家本人(頭脳)
GPUは、実際に文章を考えて書く「作家本人」。
-
考える速さ
-
文章を生み出す能力
これがそのまま 回答速度(tokens/sec) に直結する。
GPUが強いほど、
-
スラスラ書ける
-
待たされない
👉 LLMの速さの正体はほぼGPU
VRAM = 作家の机の広さ
VRAMは、作家が使っている机の広さ。
-
机の上に広げられる資料
-
今考えている内容(会話の文脈)
机が広いほど、
-
大きな資料(大きなモデル)を一気に広げられる
-
途中で片付けずに集中できる
机が狭いと、
-
小さいモデルしか扱えない
-
何度も資料を入れ替える(=遅くなる)
-
最悪、仕事を断られる(OOM)
👉 モデルサイズに一番効くのがVRAM
CPU = 編集者・秘書
CPUは、作家に指示を出す編集者や秘書。
-
「次はこのテーマで」
-
「この資料も使って」
-
「次の作業に進もう」
作家本人ではないが、
-
指示が遅いと、作家が手を止める
-
流れが悪いと、全体がもたつく
👉
GPUが暇そうなのに遅いとき、犯人はCPUなことが多い
RAM = 机の周りの床・棚
RAMは、机の周りにある床や棚。
-
まだ使っていない資料
-
調べ物の結果
-
書き終えた原稿の束
床や棚が広いと、
-
仕事がスムーズ
-
資料の出し入れが楽
狭いと、
-
すぐ片付けが必要
-
探す時間が増える
-
最終的に仕事場がカオスになる
👉 GPU推論でもRAM不足は普通に足を引っ張る
それぞれが足りないとどうなる?
まとめ(感覚的な理解)
LLMは「作家・机・編集者・床」が揃って初めて快適に動く
| 実体 | たとえ | 役割 |
|---|---|---|
| GPU | 作家 | 回答速度 |
| VRAM | 机 | モデルサイズ |
| CPU | 編集者 | 処理の流れ |
| RAM | 床・棚 | 安定性 |
おわりに
LLMの話題ではどうしても GPU / VRAM だけに注目しがちだが、
-
RAG
-
ツール呼び出し
-
マルチユーザ
-
k8s運用
といった現実的な使い方では、
CPUとRAMが地味に効いてくる場面が多い。
GPUとVRAMが主役、CPUとRAMは舞台裏
でも舞台裏が崩れると、主役は輝けない
そんな関係だと理解すると、設計の見通しがかなり良くなった。