LLMを動かすときのマシンリソースを「仕事場」でたとえて理解する

最近 LLM（大規模言語モデル）をローカルやサーバで動かす機会が増えてきた。
GPU、VRAM、CPU、RAM……と用語はよく聞くけど、

どれが何に効いているのか、感覚的に分かりづらい

と感じることが多かったので、たとえ話で整理してみる。

(この記事はchatGPTに生成してもらって少し手直ししたもの)

結論を先に

LLMにおいては、

GPU / VRAM が主役
CPU / RAM は脇役だが、いないと成立しない

という関係になる。

たとえ話：LLMは「原稿を書く作家の仕事場」

LLMの推論環境を、原稿を書く作家の仕事場にたとえる。

GPU = 作家本人（頭脳）

GPUは、実際に文章を考えて書く「作家本人」。

考える速さ
文章を生み出す能力

これがそのまま 回答速度（tokens/sec） に直結する。

GPUが強いほど、

スラスラ書ける
待たされない

👉 LLMの速さの正体はほぼGPU

VRAM = 作家の机の広さ

VRAMは、作家が使っている机の広さ。

机の上に広げられる資料
今考えている内容（会話の文脈）

机が広いほど、

大きな資料（大きなモデル）を一気に広げられる
途中で片付けずに集中できる

机が狭いと、

小さいモデルしか扱えない
何度も資料を入れ替える（＝遅くなる）
最悪、仕事を断られる（OOM）

👉 モデルサイズに一番効くのがVRAM

CPU = 編集者・秘書

CPUは、作家に指示を出す編集者や秘書。

「次はこのテーマで」
「この資料も使って」
「次の作業に進もう」

作家本人ではないが、

指示が遅いと、作家が手を止める
流れが悪いと、全体がもたつく

👉
GPUが暇そうなのに遅いとき、犯人はCPUなことが多い

RAM = 机の周りの床・棚

RAMは、机の周りにある床や棚。

まだ使っていない資料
調べ物の結果
書き終えた原稿の束

床や棚が広いと、

仕事がスムーズ
資料の出し入れが楽

狭いと、

すぐ片付けが必要
探す時間が増える
最終的に仕事場がカオスになる

👉 GPU推論でもRAM不足は普通に足を引っ張る

それぞれが足りないとどうなる？

GPUが弱い
→ とにかく遅い
VRAMが足りない
→ モデルが載らない / 激遅
CPUが弱い
→ 指示待ちが発生してGPUが遊ぶ
RAMが足りない
→ 安定しない / 途中で詰まる

まとめ（感覚的な理解）

LLMは「作家・机・編集者・床」が揃って初めて快適に動く

実体	たとえ	役割
GPU	作家	回答速度
VRAM	机	モデルサイズ
CPU	編集者	処理の流れ
RAM	床・棚	安定性

おわりに

LLMの話題ではどうしても GPU / VRAM だけに注目しがちだが、

RAG
ツール呼び出し
マルチユーザ
k8s運用

といった現実的な使い方では、
CPUとRAMが地味に効いてくる場面が多い。

GPUとVRAMが主役、CPUとRAMは舞台裏
でも舞台裏が崩れると、主役は輝けない

そんな関係だと理解すると、設計の見通しがかなり良くなった。