技術メモ

神奈川在住のITエンジニアの備忘録。おもにプログラミングやネットワーク技術について、学んだことを自分の中で整理するためにゆるゆると書いています。ちゃんと検証できていない部分もあるのでご参考程度となりますが、誰かのお役に立てれば幸いです。

LLMを動かすときのマシンリソースを「仕事場」でたとえて理解する

最近 LLM(大規模言語モデル)をローカルやサーバで動かす機会が増えてきた。
GPU、VRAM、CPU、RAM……と用語はよく聞くけど、

どれが何に効いているのか、感覚的に分かりづらい

と感じることが多かったので、たとえ話で整理してみる。

(この記事はchatGPTに生成してもらって少し手直ししたもの)


結論を先に

LLMにおいては、

  • GPU / VRAM が主役

  • CPU / RAM は脇役だが、いないと成立しない

という関係になる。


たとえ話:LLMは「原稿を書く作家の仕事場」

LLMの推論環境を、原稿を書く作家の仕事場にたとえる。


GPU = 作家本人(頭脳)

GPUは、実際に文章を考えて書く「作家本人」。

  • 考える速さ

  • 文章を生み出す能力

これがそのまま 回答速度(tokens/sec) に直結する。

GPUが強いほど、

  • スラスラ書ける

  • 待たされない

👉 LLMの速さの正体はほぼGPU


VRAM = 作家の机の広さ

VRAMは、作家が使っている机の広さ。

  • 机の上に広げられる資料

  • 今考えている内容(会話の文脈)

机が広いほど、

  • 大きな資料(大きなモデル)を一気に広げられる

  • 途中で片付けずに集中できる

机が狭いと、

  • 小さいモデルしか扱えない

  • 何度も資料を入れ替える(=遅くなる)

  • 最悪、仕事を断られる(OOM)

👉 モデルサイズに一番効くのがVRAM


CPU = 編集者・秘書

CPUは、作家に指示を出す編集者や秘書。

  • 「次はこのテーマで」

  • 「この資料も使って」

  • 「次の作業に進もう」

作家本人ではないが、

  • 指示が遅いと、作家が手を止める

  • 流れが悪いと、全体がもたつく

👉
GPUが暇そうなのに遅いとき、犯人はCPUなことが多い


RAM = 机の周りの床・棚

RAMは、机の周りにある床や棚。

  • まだ使っていない資料

  • 調べ物の結果

  • 書き終えた原稿の束

床や棚が広いと、

  • 仕事がスムーズ

  • 資料の出し入れが楽

狭いと、

  • すぐ片付けが必要

  • 探す時間が増える

  • 最終的に仕事場がカオスになる

👉 GPU推論でもRAM不足は普通に足を引っ張る


それぞれが足りないとどうなる?

  • GPUが弱い
    → とにかく遅い

  • VRAMが足りない
    → モデルが載らない / 激遅

  • CPUが弱い
    → 指示待ちが発生してGPUが遊ぶ

  • RAMが足りない
    → 安定しない / 途中で詰まる


まとめ(感覚的な理解)

LLMは「作家・机・編集者・床」が揃って初めて快適に動く

実体 たとえ 役割
GPU 作家 回答速度
VRAM モデルサイズ
CPU 編集者 処理の流れ
RAM 床・棚 安定性

おわりに

LLMの話題ではどうしても GPU / VRAM だけに注目しがちだが、

  • RAG

  • ツール呼び出し

  • マルチユーザ

  • k8s運用

といった現実的な使い方では、
CPUとRAMが地味に効いてくる場面が多い

GPUとVRAMが主役、CPUとRAMは舞台裏
でも舞台裏が崩れると、主役は輝けない

そんな関係だと理解すると、設計の見通しがかなり良くなった。