社内LLMサーバーのGPU選定【2026年】小さく始めるか、最初から両取りか
TL;DR
社内にLLMサーバーを建てるとき、最大の分岐は**「GPUを小さく始めるか、最初から両取りするか」**。これを決めるのは趣味でも予算でもなく、たった1つの問い ―「動かすモデルが確定しているか、流動的か」 です。
- モデルが確定(当面24B以下で運用が固い)→ 小さく始める(16GB・省電力ECC or 速度重視の32GB)。VRAMジャストで安く立てる
- モデルが流動的(今後32B〜70Bも試す・多人数配信・基幹寄り)→ 最初から両取り(48GB ECC)。天井を上げて買い替えを消す
VRAMが「動くか動かないか」を決め、速度はその次。過少投資の罰=買い替え二重コスト+調達待ち。過剰投資の罰=電気代と遊休。2026年はGDDR7不足で調達リードタイムが読めないため、迷ったら両取り寄りが効きます。
なぜGPU選定で詰まるのか
ローカルLLMの構成で人が止まるのは、将来が読めないからです。
- 小さく買う → 半年後に大きいモデルを試したくなって載らない → 買い替え(二重投資+調達待ち)
- 大きく買う → 結局小さいモデルしか使わず、電気代と本体代が無駄になる
この不安を消すには、「速度」より先に「容量(VRAM)」で考えるのが正解です。VRAMはモデルがそもそも載るか載らないかを決める絶対的な制約で、速度はその後の話だからです。
大原則:VRAMが「動くか動かないか」を決める
LLM推論は、トークンを1つ生成するたびにモデルの重みをメモリから読み出します。だからVRAMに載らないモデルは、そもそも動かない(システムRAMへの逃がしは実用にならない速度まで落ちる)。
ざっくりの見積もり式:
必要VRAM ≒ モデルのGBサイズ ÷ 量子化係数(Q4なら ÷8 相当)
モデルサイズ別 必要VRAM(Q4_K_M・2026年6月実測ベース)
| モデル規模 | 必要VRAM | 代表モデル | 速度の目安 |
|---|---|---|---|
| 3〜4B | 4〜5GB | Phi-4 Mini / Gemma 3 4B | 60〜90 tok/s |
| 7〜8B | 5〜9GB | Llama 3.1 8B / Qwen3 8B | 50〜80 tok/s |
| 14B | 約9GB | Qwen3 14B | 約80 tok/s |
| 24B | 約14GB | Mistral Small 3.1 24B | 約55 tok/s |
| 27〜32B | 16〜19GB | Qwen3.6 27B / DeepSeek-R1 32B | 55〜60 tok/s |
| 70B | 約40GB | Llama 3.3 70B | 10〜60 tok/s |
要点:8GBで7B、12GBで14B、16GBで24B、24GBで32B、70Bは40GB+ ―― これが容量の壁です。
罠:VRAMは「2回」効く
上の表はモデルの重みだけの数字です。実運用ではここに上乗せが乗ります。
- KVキャッシュ(会話コンテキスト): コンテキスト長で膨らむ。8Kで**+25%、32Kで最大+100%**を重みの上に確保する
- 同時ユーザー: バッチ処理で複数リクエストを並列に捌くと、その分VRAMを食う
つまり「24Bが14GBだから16GBでOK」は長文や複数ユーザーで崩れる。実効では重みの1.3〜2倍を見ておくのが安全です。社内サーバーは「1人がちょっと試す」のではなく「複数人が長文で叩く」用途になりがちなので、ここを甘く見ると天井に当たります。
構成パターン(マウス DAIV の実機で考える)
調達はマウスコンピューターのDAIV(BTO・GPU換装可・NVIDIA Studio認定)を前提に、実際に買えるモデルで並べます。価格は2026年6月時点・税込。
| パターン | DAIV モデル | GPU / VRAM | ECC | 消費電力 | 価格(税込) |
|---|---|---|---|---|---|
| A 小さく始める | KM-I7N20 | RTX PRO 2000 / 16GB | ◯ | 約70W | 574,800円〜 |
| B 速度コスパ(本命) | FX-I7G90 | GeForce RTX 5090 / 32GB | — | 約575W | 1,029,800円〜 |
| D フラッグシップ | FW-P9N60 | RTX PRO 6000 Blackwell / 96GB | ◯ | (帯域1,792GB/s) | 7,999,800円〜 |
- A(KM-I7N20 / PRO 2000 16GB) は16GB ECCを約70Wで回せる。省電力・静音・データ整合が要る24/7サーバーに理想的。Core i7-14700F+32GB+750W電源のミニタワー。ただし24Bが上限の現実ライン
- B(FX-I7G90 / RTX 5090 32GB) は速度MAX+32GBでコスパ最強。Core Ultra 7 270K Plus+64GB+10GbE+1200W電源のフルタワー。ECC無し・575W・コンシューマ設計(連続高負荷でスロットル)だが、後述の通り電源とPCIe空きに余裕がありGPU換装で上に伸ばせる
- D(FW-P9N60 / PRO 6000 96GB) は70Bを複数・FP16で回す基幹用途。Threadripper PRO+128GB+Win11 Pro WS。要件が固まってから
注意:マウスには「48GB ECC の中間(旧C案)」が無い
理想を言えば、AとDの間に48GB ECC(RTX PRO 5000 / RTX 6000 Ada 級)の「両取り」機が欲しい。しかしマウスの現行ラインは PRO 2000(16GB)から PRO 6000(96GB)へ一気に飛び、48GBクラスのECC機を扱っていません(2026年6月時点)。
そのため**「両取り」をマウス内で作るなら2択**:
- B(FX-I7G90)をベースにGPUを換装して48GBクラスへ伸ばす(電源1200W・PCIe×16空きあり)
- 最初から D(96GB) に行く
中間が物理的に無いぶん、**「Bで建てて様子を見て、要件が固まったら換装 or Dへ」**という段階戦略がマウス調達では特に効きます。
判断の決め手:5つの質問
上から順に答えると構成が1つに絞れます。
- 動かす最大モデルは? → VRAM下限が決まる(24B=実効20GB前後 / 32B=24〜32GB / 70B=48GB+)
- 同時に何人が使う? → バッチ分のVRAMを上乗せ(数人なら小、全社配信なら大)
- 24時間無停止で、データが壊れたら困る? → Yes=ECC必須(RTX PRO系) / No=GeForce(5090)可
- 量子化で品質が落ちると困る(FP16が要る)? → Yes=容量がほぼ倍要る → 換装 or D(96GB)へ
- 省電力・静音で常時稼働したい? → Yes=PRO 2000(70W)/ 速度優先なら5090(575W)
核心:「小さく始める」か「両取り」かの分かれ目
ここが一番迷うところです。判断軸は1つ ―「モデルが確定しているか、流動的か」。
「小さく始める」(A or B)が正解になる条件
- 動かすモデルが当面24B以下で確定している
- 用途が明確で軽い(社内QA bot・議事録要約・コード補助 など)
- 同時利用が数人まで
- まず費用対効果を検証(PoC)してから広げたい
- 省電力・静音で常時稼働したい(→ PRO 2000)
→ VRAMをジャストで合わせて安く立てるのが合理的。用途が固いのに48GBを買うのは、使わない容量に電気代を払い続けることになります。
「両取り」(マウスでは B+換装 or D)が正解になる条件
- 動かすモデルが流動的(今後32B〜70Bも試したい)
- 複数部署・多人数に配信する予定
- ECC無停止が要件(基幹業務寄り)
- FP16精度や長文コンテキストを常用する
- 買い替えコスト(二重投資+調達リードタイム)を避けたい
→ 最初から天井を上げて、買い替えそのものを消す。
決め手の一言と、損得の非対称
確定なら小さく、流動的なら両取り。シンプルですが、罰の重さが左右で違う点が判断を後押しします。
- 過少投資の罰:半年後に載らない → 買い替え(本体+GPUの二重コスト)+調達待ちで業務が止まる
- 過剰投資の罰:電気代と遊休(ただし動き続けはする)
2026年はGDDR7不足でGPUの調達リードタイムが読めません。 「足りなくなったらすぐ足せる」が成り立たない年です。だから少しでも流動的なら、両取り側(B+換装 or D)に倒すほうが期待損失は小さい。逆に用途がカチッと固いなら、小さく始めて浮いた予算を別に回すのが正解です。
換装前提で「逃げ道」を残す
DAIV FX-I7G90 のようなフルタワー機は、電源1200W・PCIe×16スロットに空きがあり、GPU換装ができる設計です。これを使うと第3の道が生まれます。
まず B(5090 / 32GB)で建てて検証 → ECC無停止や大型モデルが要件化したら 48GBクラス〜D(96GB ECC)に載せ替える。
本体・CPU・メモリ・電源は据え置きで、GPUだけ入れ替える。「小さく始める」と「両取り」の中間を、ハードの拡張性で取りにいく考え方です。小型ミニPC(dGPU無し)を選ぶと、この逃げ道が最初から無くなる点に注意してください。
まとめ
| 状況 | 推奨(DAIV実機) | 理由 |
|---|---|---|
| 用途が固い・≤24B・数人・省電力24/7 | A KM-I7N20(PRO 2000 16GB) | ECC+70Wでジャスト。過剰投資を避ける |
| 速度最優先・〜32B・PoC〜小規模 | B FX-I7G90(RTX 5090 32GB) | コスパ最強。換装で将来に逃げ道 |
| モデル流動的・多人数・無停止・FP16 | B+換装 or D | マウスに48GB ECC中間が無い→換装で伸ばす |
| 70B複数・FP16・大規模配信 | D FW-P9N60(PRO 6000 96GB) | 要件が出てから |
GPU選定は**「速度」より「容量(VRAM)」が先**。そして**「確定か流動的か」**で小さく始めるか両取りかが決まります。調達が読めない年は、迷いがあるなら両取りに倒すほうが安全側です。
各構成の購入先(DAIV 実機)
- A 小さく始める — DAIV KM-I7N20(RTX PRO 2000 16GB ECC・574,800円〜)
- B 速度コスパ(本命) — DAIV FX-I7G90(RTX 5090 32GB・1,029,800円〜)
- D フラッグシップ — DAIV FW-P9N60(RTX PRO 6000 96GB ECC・7,999,800円〜)
※価格・在庫・セールは2026年6月時点。最新は各製品ページで確認してください。
会員限定:VRAM見積りシート + 構成別DAIV見積り + 段階移行プラン
「動かしたいモデル・コンテキスト長・同時ユーザー数」を入れると必要VRAMと推奨GPUを自動算出するスプレッドシート、A〜DそれぞれのDAIV構成見積り(本体+GPU+電気代TCO)、そして**B(5090)で建ててC/Dへ換装する段階移行プラン(移行判断のチェックリスト付き)**を会員限定で公開しています。
この続きはメンバー限定です
メールアドレスを登録すると、本記事の設定ファイル・コードと全 10 本の実践記事が読めます。無料・いつでも解除可。