社内LLMサーバーのGPU選定【2026年】小さく始めるか、最初から両取りか

インフラ上級メンバー限定2026年6月26日

LLMGPUNVIDIAServerVRAM

TL;DR

社内にLLMサーバーを建てるとき、最大の分岐は**「GPUを小さく始めるか、最初から両取りするか」**。これを決めるのは趣味でも予算でもなく、たった1つの問い ―「動かすモデルが確定しているか、流動的か」 です。

モデルが確定（当面24B以下で運用が固い）→ 小さく始める（16GB・省電力ECC or 速度重視の32GB）。VRAMジャストで安く立てる
モデルが流動的（今後32B〜70Bも試す・多人数配信・基幹寄り）→ 最初から両取り（48GB ECC）。天井を上げて買い替えを消す

VRAMが「動くか動かないか」を決め、速度はその次。過少投資の罰＝買い替え二重コスト＋調達待ち。過剰投資の罰＝電気代と遊休。2026年はGDDR7不足で調達リードタイムが読めないため、迷ったら両取り寄りが効きます。

なぜGPU選定で詰まるのか

ローカルLLMの構成で人が止まるのは、将来が読めないからです。

小さく買う → 半年後に大きいモデルを試したくなって載らない → 買い替え（二重投資＋調達待ち）
大きく買う → 結局小さいモデルしか使わず、電気代と本体代が無駄になる

この不安を消すには、「速度」より先に「容量（VRAM）」で考えるのが正解です。VRAMはモデルがそもそも載るか載らないかを決める絶対的な制約で、速度はその後の話だからです。

大原則：VRAMが「動くか動かないか」を決める

LLM推論は、トークンを1つ生成するたびにモデルの重みをメモリから読み出します。だからVRAMに載らないモデルは、そもそも動かない（システムRAMへの逃がしは実用にならない速度まで落ちる）。

ざっくりの見積もり式：

必要VRAM ≒ モデルのGBサイズ ÷ 量子化係数（Q4なら ÷8 相当）

モデルサイズ別必要VRAM（Q4_K_M・2026年6月実測ベース）

モデル規模	必要VRAM	代表モデル	速度の目安
3〜4B	4〜5GB	Phi-4 Mini / Gemma 3 4B	60〜90 tok/s
7〜8B	5〜9GB	Llama 3.1 8B / Qwen3 8B	50〜80 tok/s
14B	約9GB	Qwen3 14B	約80 tok/s
24B	約14GB	Mistral Small 3.1 24B	約55 tok/s
27〜32B	16〜19GB	Qwen3.6 27B / DeepSeek-R1 32B	55〜60 tok/s
70B	約40GB	Llama 3.3 70B	10〜60 tok/s

要点：8GBで7B、12GBで14B、16GBで24B、24GBで32B、70Bは40GB+ ―― これが容量の壁です。

罠：VRAMは「2回」効く

上の表はモデルの重みだけの数字です。実運用ではここに上乗せが乗ります。

KVキャッシュ（会話コンテキスト）: コンテキスト長で膨らむ。8Kで**+25%、32Kで最大+100%**を重みの上に確保する
同時ユーザー: バッチ処理で複数リクエストを並列に捌くと、その分VRAMを食う

つまり「24Bが14GBだから16GBでOK」は長文や複数ユーザーで崩れる。実効では重みの1.3〜2倍を見ておくのが安全です。社内サーバーは「1人がちょっと試す」のではなく「複数人が長文で叩く」用途になりがちなので、ここを甘く見ると天井に当たります。

構成パターン（マウス DAIV の実機で考える）

調達はマウスコンピューターのDAIV（BTO・GPU換装可・NVIDIA Studio認定）を前提に、実際に買えるモデルで並べます。価格は2026年6月時点・税込。

パターン	DAIV モデル	GPU / VRAM	ECC	消費電力	価格(税込)
A 小さく始める	KM-I7N20	RTX PRO 2000 / 16GB	◯	約70W	574,800円〜
B 速度コスパ（本命）	FX-I7G90	GeForce RTX 5090 / 32GB	—	約575W	1,029,800円〜
D フラッグシップ	FW-P9N60	RTX PRO 6000 Blackwell / 96GB	◯	（帯域1,792GB/s）	7,999,800円〜

A（KM-I7N20 / PRO 2000 16GB） は16GB ECCを約70Wで回せる。省電力・静音・データ整合が要る24/7サーバーに理想的。Core i7-14700F＋32GB＋750W電源のミニタワー。ただし24Bが上限の現実ライン
B（FX-I7G90 / RTX 5090 32GB） は速度MAX＋32GBでコスパ最強。Core Ultra 7 270K Plus＋64GB＋10GbE＋1200W電源のフルタワー。ECC無し・575W・コンシューマ設計（連続高負荷でスロットル）だが、後述の通り電源とPCIe空きに余裕がありGPU換装で上に伸ばせる
D（FW-P9N60 / PRO 6000 96GB） は70Bを複数・FP16で回す基幹用途。Threadripper PRO＋128GB＋Win11 Pro WS。要件が固まってから

注意：マウスには「48GB ECC の中間（旧C案）」が無い

理想を言えば、AとDの間に48GB ECC（RTX PRO 5000 / RTX 6000 Ada 級）の「両取り」機が欲しい。しかしマウスの現行ラインは PRO 2000（16GB）から PRO 6000（96GB）へ一気に飛び、48GBクラスのECC機を扱っていません（2026年6月時点）。

そのため**「両取り」をマウス内で作るなら2択**：

B（FX-I7G90）をベースにGPUを換装して48GBクラスへ伸ばす（電源1200W・PCIe×16空きあり）
最初から D（96GB） に行く

中間が物理的に無いぶん、**「Bで建てて様子を見て、要件が固まったら換装 or Dへ」**という段階戦略がマウス調達では特に効きます。

判断の決め手：5つの質問

上から順に答えると構成が1つに絞れます。

動かす最大モデルは？ → VRAM下限が決まる（24B＝実効20GB前後 / 32B＝24〜32GB / 70B＝48GB+）
同時に何人が使う？ → バッチ分のVRAMを上乗せ（数人なら小、全社配信なら大）
24時間無停止で、データが壊れたら困る？ → Yes＝ECC必須（RTX PRO系） / No＝GeForce（5090）可
量子化で品質が落ちると困る（FP16が要る）？ → Yes＝容量がほぼ倍要る → 換装 or D（96GB）へ
省電力・静音で常時稼働したい？ → Yes＝PRO 2000（70W）/ 速度優先なら5090（575W）

核心：「小さく始める」か「両取り」かの分かれ目

ここが一番迷うところです。判断軸は1つ ―「モデルが確定しているか、流動的か」。

「小さく始める」（A or B）が正解になる条件

動かすモデルが当面24B以下で確定している
用途が明確で軽い（社内QA bot・議事録要約・コード補助など）
同時利用が数人まで
まず費用対効果を検証（PoC）してから広げたい
省電力・静音で常時稼働したい（→ PRO 2000）

→ VRAMをジャストで合わせて安く立てるのが合理的。用途が固いのに48GBを買うのは、使わない容量に電気代を払い続けることになります。

「両取り」（マウスでは B＋換装 or D）が正解になる条件

動かすモデルが流動的（今後32B〜70Bも試したい）
複数部署・多人数に配信する予定
ECC無停止が要件（基幹業務寄り）
FP16精度や長文コンテキストを常用する
買い替えコスト（二重投資＋調達リードタイム）を避けたい

→ 最初から天井を上げて、買い替えそのものを消す。

決め手の一言と、損得の非対称

確定なら小さく、流動的なら両取り。シンプルですが、罰の重さが左右で違う点が判断を後押しします。

過少投資の罰：半年後に載らない → 買い替え（本体＋GPUの二重コスト）＋調達待ちで業務が止まる
過剰投資の罰：電気代と遊休（ただし動き続けはする）

2026年はGDDR7不足でGPUの調達リードタイムが読めません。 「足りなくなったらすぐ足せる」が成り立たない年です。だから少しでも流動的なら、両取り側（B＋換装 or D）に倒すほうが期待損失は小さい。逆に用途がカチッと固いなら、小さく始めて浮いた予算を別に回すのが正解です。

換装前提で「逃げ道」を残す

DAIV FX-I7G90 のようなフルタワー機は、電源1200W・PCIe×16スロットに空きがあり、GPU換装ができる設計です。これを使うと第3の道が生まれます。

まず B（5090 / 32GB）で建てて検証 → ECC無停止や大型モデルが要件化したら 48GBクラス〜D（96GB ECC）に載せ替える。

本体・CPU・メモリ・電源は据え置きで、GPUだけ入れ替える。「小さく始める」と「両取り」の中間を、ハードの拡張性で取りにいく考え方です。小型ミニPC（dGPU無し）を選ぶと、この逃げ道が最初から無くなる点に注意してください。

まとめ

状況	推奨（DAIV実機）	理由
用途が固い・≤24B・数人・省電力24/7	A KM-I7N20（PRO 2000 16GB）	ECC＋70Wでジャスト。過剰投資を避ける
速度最優先・〜32B・PoC〜小規模	B FX-I7G90（RTX 5090 32GB）	コスパ最強。換装で将来に逃げ道
モデル流動的・多人数・無停止・FP16	B＋換装 or D	マウスに48GB ECC中間が無い→換装で伸ばす
70B複数・FP16・大規模配信	D FW-P9N60（PRO 6000 96GB）	要件が出てから

GPU選定は**「速度」より「容量（VRAM）」が先**。そして**「確定か流動的か」**で小さく始めるか両取りかが決まります。調達が読めない年は、迷いがあるなら両取りに倒すほうが安全側です。

各構成の購入先（DAIV 実機）

A 小さく始める — DAIV KM-I7N20（RTX PRO 2000 16GB ECC・574,800円〜）
B 速度コスパ（本命） — DAIV FX-I7G90（RTX 5090 32GB・1,029,800円〜）
D フラッグシップ — DAIV FW-P9N60（RTX PRO 6000 96GB ECC・7,999,800円〜）

※価格・在庫・セールは2026年6月時点。最新は各製品ページで確認してください。

会員限定：VRAM見積りシート + 構成別DAIV見積り + 段階移行プラン

「動かしたいモデル・コンテキスト長・同時ユーザー数」を入れると必要VRAMと推奨GPUを自動算出するスプレッドシート、A〜DそれぞれのDAIV構成見積り（本体＋GPU＋電気代TCO）、そして**B（5090）で建ててC/Dへ換装する段階移行プラン（移行判断のチェックリスト付き）**を会員限定で公開しています。

この続きはメンバー限定です

メールアドレスを登録すると、本記事の設定ファイル・コードと全 10 本の実践記事が読めます。無料・いつでも解除可。

記事一覧に戻る