社内LLMサーバーのGPU選定【2026年】小さく始めるか、最初から両取りか

インフラ上級メンバー限定
LLMGPUNVIDIAServerVRAM

TL;DR

社内にLLMサーバーを建てるとき、最大の分岐は**「GPUを小さく始めるか、最初から両取りするか」**。これを決めるのは趣味でも予算でもなく、たった1つの問い ―「動かすモデルが確定しているか、流動的か」 です。

  • モデルが確定(当面24B以下で運用が固い)→ 小さく始める(16GB・省電力ECC or 速度重視の32GB)。VRAMジャストで安く立てる
  • モデルが流動的(今後32B〜70Bも試す・多人数配信・基幹寄り)→ 最初から両取り(48GB ECC)。天井を上げて買い替えを消す

VRAMが「動くか動かないか」を決め、速度はその次。過少投資の罰=買い替え二重コスト+調達待ち。過剰投資の罰=電気代と遊休。2026年はGDDR7不足で調達リードタイムが読めないため、迷ったら両取り寄りが効きます。


なぜGPU選定で詰まるのか

ローカルLLMの構成で人が止まるのは、将来が読めないからです。

  • 小さく買う → 半年後に大きいモデルを試したくなって載らない → 買い替え(二重投資+調達待ち)
  • 大きく買う → 結局小さいモデルしか使わず、電気代と本体代が無駄になる

この不安を消すには、「速度」より先に「容量(VRAM)」で考えるのが正解です。VRAMはモデルがそもそも載るか載らないかを決める絶対的な制約で、速度はその後の話だからです。


大原則:VRAMが「動くか動かないか」を決める

LLM推論は、トークンを1つ生成するたびにモデルの重みをメモリから読み出します。だからVRAMに載らないモデルは、そもそも動かない(システムRAMへの逃がしは実用にならない速度まで落ちる)。

ざっくりの見積もり式:

必要VRAM ≒ モデルのGBサイズ ÷ 量子化係数(Q4なら ÷8 相当)

モデルサイズ別 必要VRAM(Q4_K_M・2026年6月実測ベース)

モデル規模 必要VRAM 代表モデル 速度の目安
3〜4B 4〜5GB Phi-4 Mini / Gemma 3 4B 60〜90 tok/s
7〜8B 5〜9GB Llama 3.1 8B / Qwen3 8B 50〜80 tok/s
14B 約9GB Qwen3 14B 約80 tok/s
24B 約14GB Mistral Small 3.1 24B 約55 tok/s
27〜32B 16〜19GB Qwen3.6 27B / DeepSeek-R1 32B 55〜60 tok/s
70B 約40GB Llama 3.3 70B 10〜60 tok/s

要点:8GBで7B、12GBで14B、16GBで24B、24GBで32B、70Bは40GB+ ―― これが容量の壁です。


罠:VRAMは「2回」効く

上の表はモデルの重みだけの数字です。実運用ではここに上乗せが乗ります。

  • KVキャッシュ(会話コンテキスト): コンテキスト長で膨らむ。8Kで**+25%、32Kで最大+100%**を重みの上に確保する
  • 同時ユーザー: バッチ処理で複数リクエストを並列に捌くと、その分VRAMを食う

つまり「24Bが14GBだから16GBでOK」は長文や複数ユーザーで崩れる実効では重みの1.3〜2倍を見ておくのが安全です。社内サーバーは「1人がちょっと試す」のではなく「複数人が長文で叩く」用途になりがちなので、ここを甘く見ると天井に当たります。


構成パターン(マウス DAIV の実機で考える)

調達はマウスコンピューターのDAIV(BTO・GPU換装可・NVIDIA Studio認定)を前提に、実際に買えるモデルで並べます。価格は2026年6月時点・税込。

パターン DAIV モデル GPU / VRAM ECC 消費電力 価格(税込)
A 小さく始める KM-I7N20 RTX PRO 2000 / 16GB 約70W 574,800円〜
B 速度コスパ(本命) FX-I7G90 GeForce RTX 5090 / 32GB 約575W 1,029,800円〜
D フラッグシップ FW-P9N60 RTX PRO 6000 Blackwell / 96GB (帯域1,792GB/s) 7,999,800円〜
  • A(KM-I7N20 / PRO 2000 16GB) は16GB ECCを約70Wで回せる。省電力・静音・データ整合が要る24/7サーバーに理想的。Core i7-14700F+32GB+750W電源のミニタワー。ただし24Bが上限の現実ライン
  • B(FX-I7G90 / RTX 5090 32GB) は速度MAX+32GBでコスパ最強。Core Ultra 7 270K Plus+64GB+10GbE+1200W電源のフルタワー。ECC無し・575W・コンシューマ設計(連続高負荷でスロットル)だが、後述の通り電源とPCIe空きに余裕がありGPU換装で上に伸ばせる
  • D(FW-P9N60 / PRO 6000 96GB) は70Bを複数・FP16で回す基幹用途。Threadripper PRO+128GB+Win11 Pro WS。要件が固まってから

注意:マウスには「48GB ECC の中間(旧C案)」が無い

理想を言えば、AとDの間に48GB ECC(RTX PRO 5000 / RTX 6000 Ada 級)の「両取り」機が欲しい。しかしマウスの現行ラインは PRO 2000(16GB)から PRO 6000(96GB)へ一気に飛び、48GBクラスのECC機を扱っていません(2026年6月時点)。

そのため**「両取り」をマウス内で作るなら2択**:

  1. B(FX-I7G90)をベースにGPUを換装して48GBクラスへ伸ばす(電源1200W・PCIe×16空きあり)
  2. 最初から D(96GB) に行く

中間が物理的に無いぶん、**「Bで建てて様子を見て、要件が固まったら換装 or Dへ」**という段階戦略がマウス調達では特に効きます。


判断の決め手:5つの質問

上から順に答えると構成が1つに絞れます。

  1. 動かす最大モデルは? → VRAM下限が決まる(24B=実効20GB前後 / 32B=24〜32GB / 70B=48GB+)
  2. 同時に何人が使う? → バッチ分のVRAMを上乗せ(数人なら小、全社配信なら大)
  3. 24時間無停止で、データが壊れたら困る? → Yes=ECC必須(RTX PRO系) / No=GeForce(5090)可
  4. 量子化で品質が落ちると困る(FP16が要る)? → Yes=容量がほぼ倍要る → 換装 or D(96GB)へ
  5. 省電力・静音で常時稼働したい? → Yes=PRO 2000(70W)/ 速度優先なら5090(575W)

核心:「小さく始める」か「両取り」かの分かれ目

ここが一番迷うところです。判断軸は1つ ―「モデルが確定しているか、流動的か」

「小さく始める」(A or B)が正解になる条件

  • 動かすモデルが当面24B以下で確定している
  • 用途が明確で軽い(社内QA bot・議事録要約・コード補助 など)
  • 同時利用が数人まで
  • まず費用対効果を検証(PoC)してから広げたい
  • 省電力・静音で常時稼働したい(→ PRO 2000)

VRAMをジャストで合わせて安く立てるのが合理的。用途が固いのに48GBを買うのは、使わない容量に電気代を払い続けることになります。

「両取り」(マウスでは B+換装 or D)が正解になる条件

  • 動かすモデルが流動的(今後32B〜70Bも試したい)
  • 複数部署・多人数に配信する予定
  • ECC無停止が要件(基幹業務寄り)
  • FP16精度や長文コンテキストを常用する
  • 買い替えコスト(二重投資+調達リードタイム)を避けたい

最初から天井を上げて、買い替えそのものを消す

決め手の一言と、損得の非対称

確定なら小さく、流動的なら両取り。シンプルですが、罰の重さが左右で違う点が判断を後押しします。

  • 過少投資の罰:半年後に載らない → 買い替え(本体+GPUの二重コスト)+調達待ちで業務が止まる
  • 過剰投資の罰:電気代と遊休(ただし動き続けはする)

2026年はGDDR7不足でGPUの調達リードタイムが読めません。 「足りなくなったらすぐ足せる」が成り立たない年です。だから少しでも流動的なら、両取り側(B+換装 or D)に倒すほうが期待損失は小さい。逆に用途がカチッと固いなら、小さく始めて浮いた予算を別に回すのが正解です。


換装前提で「逃げ道」を残す

DAIV FX-I7G90 のようなフルタワー機は、電源1200W・PCIe×16スロットに空きがあり、GPU換装ができる設計です。これを使うと第3の道が生まれます。

まず B(5090 / 32GB)で建てて検証 → ECC無停止や大型モデルが要件化したら 48GBクラス〜D(96GB ECC)に載せ替える。

本体・CPU・メモリ・電源は据え置きで、GPUだけ入れ替える。「小さく始める」と「両取り」の中間を、ハードの拡張性で取りにいく考え方です。小型ミニPC(dGPU無し)を選ぶと、この逃げ道が最初から無くなる点に注意してください。


まとめ

状況 推奨(DAIV実機) 理由
用途が固い・≤24B・数人・省電力24/7 A KM-I7N20(PRO 2000 16GB) ECC+70Wでジャスト。過剰投資を避ける
速度最優先・〜32B・PoC〜小規模 B FX-I7G90(RTX 5090 32GB) コスパ最強。換装で将来に逃げ道
モデル流動的・多人数・無停止・FP16 B+換装 or D マウスに48GB ECC中間が無い→換装で伸ばす
70B複数・FP16・大規模配信 D FW-P9N60(PRO 6000 96GB) 要件が出てから

GPU選定は**「速度」より「容量(VRAM)」が先**。そして**「確定か流動的か」**で小さく始めるか両取りかが決まります。調達が読めない年は、迷いがあるなら両取りに倒すほうが安全側です。


各構成の購入先(DAIV 実機)

※価格・在庫・セールは2026年6月時点。最新は各製品ページで確認してください。


会員限定:VRAM見積りシート + 構成別DAIV見積り + 段階移行プラン

「動かしたいモデル・コンテキスト長・同時ユーザー数」を入れると必要VRAMと推奨GPUを自動算出するスプレッドシート、A〜DそれぞれのDAIV構成見積り(本体+GPU+電気代TCO)、そして**B(5090)で建ててC/Dへ換装する段階移行プラン(移行判断のチェックリスト付き)**を会員限定で公開しています。

この続きはメンバー限定です

メールアドレスを登録すると、本記事の設定ファイル・コードと全 10 本の実践記事が読めます。無料・いつでも解除可。

記事一覧に戻る