LLM GPU RAM 計算機

LLM GPU RAM Calculator
📊 Estimated Requirements
Total GPU VRAM
0
GB
Model Weights
0
GB
💡 Note: Estimates are for inference only (not training). They include model weights plus a 20% buffer for KV cache (context) and activations. For long context or large batch size, actual usage may be higher than this estimate.

LLM GPU RAM 計算機: 大規模言語モデルに必要なVRAMの見積もり

Llama、Mistral、QwenなどのLLMを推論で実行するために必要なGPUメモリ(VRAM)を推定する無料オンラインツール。


LLM GPU RAM 計算機とは?

LLM GPU RAM 計算機は、大規模言語モデル(LLM)を推論(つまり、テキスト生成や質問応答であり、学習ではありません)で実行するために必要なGPU VRAM(ビデオRAM)を推定するシンプルで無料のウェブツールです。モデルサイズ(例:7B、13B、70B)と推論精度(FP32、FP16、INT8、INT4、INT2)を入力すると、計算機はモデルの重みとKVキャッシュおよび活性化のためのバッファを含む、合計GPUメモリ(GB単位)の推定値を返します。

ローカルでのLLM推論用にGPUを選んでいる場合、サーバーを計画している場合、または量子化オプションを比較している場合でも、この計算機はあなたのハードウェアが特定のモデルを収容できるかを素早く確認するのに役立ちます。


LLMにGPU VRAM計算機を使用する理由

LLMをローカルまたは自身のGPUサーバーで実行するには、十分なVRAMが必要です。保持するものは以下の通りです:

  1. モデル重み – メモリの大部分を占め、パラメータ数と精度に比例します。
  2. KVキャッシュ – コンテキスト長とバッチサイズに応じて増加します。
  3. 活性化とオーバーヘッド – 推論中の一時メモリです。

VRAMを過小評価するとメモリ不足エラーが発生し、過大評価すると必要以上のGPUを購入することになります。LLM GPU RAM計算機は数秒で大まかな数値を提供するため、以下のことが可能です:

  • 現在のGPUで7B、13B、または70Bモデルを実行できるかどうかを判断します。
  • FP16対INT4(またはINT8)を比較し、量子化によってどれだけメモリが節約されるかを確認します。
  • モデルをダウンロードする前に、アップグレードやクラウドインスタンスを計画します。

仕組み

この計算機は2つの入力を使用します:

  • モデルサイズ(パラメータ数、単位:10億) – 例:7Bモデルなら7、13Bモデルなら13、70Bモデルなら70。小数も使用可能(例:500Mモデルなら0.5)。
  • 推論精度 – パラメータあたりのバイト数: FP32 (4), FP16/BF16 (2), INT8 (1), INT4 (0.5), INT2 (0.25)。

計算式:

  • モデルの重み(GB) = モデルサイズ(10億単位) × パラメータあたりのバイト数。
  • 総推定VRAM使用量(GB) = モデルの重み × 1.2(KVキャッシュとアクティベーション用に20%のバッファを追加)。

例: FP16精度の7Bモデル の場合、重みに約14 GB(7 × 2)を使用します。20%のバッファを加えると、ツールは合計で約16.8 GBを推奨します。したがって、24 GBのGPUであれば余裕を持って動作します。


精度オプション: FP32, FP16, INT8, INT4, INT2

異なる精度は、メモリ使用量と、多くの場合品質/速度の両方を変化させます:

精度 パラメータあたりのバイト数 典型的な用途
FP32 4 最高品質、最大VRAM使用量。推論にはほとんど使用されない。
FP16 / BF16 2 多くのLLMのデフォルト設定。品質と速度の良いバランス。
INT8 1 FP16の半分のメモリ使用量。品質は若干低下。
INT4 0.5 コンシューマー向けGPUで人気。FP16比でメモリ使用量が1/4。
INT2 0.25 実験的。最小限のVRAM使用量だが、品質低下は大きい。

この計算機はこれらすべてをサポートしています。例えば、FP16からINT4に切り替えると、重みのメモリ使用量が1/4になります。つまり、70億パラメータモデルの場合、重みのメモリ使用量は約14GBから約3.5GBに減少し、8GB GPUでの実行が可能になります。


見積もりが異なる場合

見積もりは推論のみ(学習ではない)を対象としています。20%のバッファは、典型的なコンテキスト長とバッチサイズの経験則です。実際には:

  • 長いコンテキスト(例:32K、128Kトークン)はKVキャッシュを増加させます;見積もりよりも多くのVRAMが必要になる場合があります。
  • 大きなバッチサイズもメモリを増加させます;このツールはバッチサイズを尋ねないため、結果をバッチサイズ1および中程度のコンテキストでの最小値として扱ってください。
  • フレームワークと最適化(例:FlashAttention、カーネルのカスタマイズ)は実際の使用量を削減できます;計算機は控えめな見積もりを維持します。

したがって、結果は計画のガイドとして使用してください:ツールが約17 GBを示す場合、余裕を持って少なくとも24 GBのカードを目指してください。


LLM GPU RAM計算機を試す

このページの計算機を使用してください:モデルサイズと精度を入力し、メモリを計算をクリックすると、GPU VRAM合計モデルの重みのGB単位での即時推定値が得られます。サインアップもインストールも不要—次のLLMに必要なGPUメモリを簡単に確認できます。