LLM GPU 内存计算器

LLM GPU RAM Calculator
📊 Estimated Requirements
Total GPU VRAM
0
GB
Model Weights
0
GB
💡 Note: Estimates are for inference only (not training). They include model weights plus a 20% buffer for KV cache (context) and activations. For long context or large batch size, actual usage may be higher than this estimate.

大语言模型GPU显存计算器:估算大型语言模型所需的显存

免费在线工具,用于估算运行如 Llama、Mistral 和 Qwen 等大语言模型进行推理所需的GPU显存量。


什么是大语言模型GPU显存计算器?

大语言模型GPU显存计算器是一个简单、免费的网页工具,用于估算运行大语言模型进行推理(即生成文本或回答问题,而非训练)所需的GPU显存。输入模型大小(例如 7B、13B、70B)和推理精度(FP32、FP16、INT8、INT4 或 INT2),计算器将返回以GB为单位的GPU显存总量估算值,包括模型权重以及用于KV缓存和激活的缓冲区。

无论您是为本地大语言模型推理选择GPU、规划服务器,还是比较量化选项,此计算器都能帮助您快速检查您的硬件是否能够容纳给定模型。


为何为LLM使用GPU显存计算器?

在本地或自有GPU服务器上运行LLM需要足够的显存(VRAM)来容纳:

  1. 模型权重 – 内存占用的主体部分,与参数量及精度成正比。
  2. KV缓存 – 随上下文长度和批次大小增长。
  3. 激活值和开销 – 推理过程中的临时内存占用。

低估显存需求会导致内存溢出错误;高估则可能让您购买超出实际需求的GPU。LLM GPU显存计算器能在几秒内给出大致估算,从而帮助您:

  • 判断当前GPU能否运行7B、13B或70B模型。
  • 对比FP16与INT4(或INT8)量化方案,了解量化技术节省的显存量。
  • 在下载模型前规划硬件升级或云服务实例配置。

工作原理

本计算器基于以下两项输入进行计算:

  • 模型大小(以十亿参数计) – 例如,7B 模型为 7,13B 模型为 13,70B 模型为 70。可以使用小数(例如,500M 模型为 0.5)。
  • 推理精度 – 每个参数占用的字节数:FP32 (4),FP16/BF16 (2),INT8 (1),INT4 (0.5),INT2 (0.25)。

公式:

  • 模型权重(GB) = 模型大小(十亿)× 每个参数的字节数。
  • 总估计显存(GB) = 模型权重 × 1.2(为 KV 缓存和激活值增加 20% 的缓冲)。

示例:一个采用 FP16 的 7B 模型,其权重约占用14 GB(7 × 2)。加上 20% 的缓冲后,该工具建议总共约需16.8 GB——因此,一块 24 GB 的 GPU 可以轻松应对。


精度选项:FP32、FP16、INT8、INT4、INT2

不同的精度会同时改变内存使用,并且通常也会影响质量/速度

精度 每参数字节数 典型用途
FP32 4 最高质量,显存占用最大;推理时极少使用。
FP16 / BF16 2 许多大语言模型的默认设置;质量与速度的良好平衡。
INT8 1 显存占用为FP16的一半;存在一定的质量损失。
INT4 0.5 消费级显卡常用;显存占用比FP16少4倍。
INT2 0.25 实验性质;显存占用极低,质量损失更多。

计算器支持所有这些精度。例如,从FP16切换到INT4,权重内存占用将减少4倍,因此一个70亿参数的模型权重所需内存将从约14 GB降至约3.5 GB——这使得在8 GB显存的显卡上运行成为可能。


估算可能产生差异的情况

估算仅适用于推理阶段(不包含训练)。20%的缓冲空间是基于典型上下文长度和批处理大小的经验法则。实际情况中:

  • 较长的上下文(例如32K、128K词元)会增加KV缓存;您可能需要比估算值更多的显存。
  • 较大的批处理大小同样会增加内存占用;本工具未询问批处理大小,因此请将结果视为批处理大小为1且上下文长度适中时的最低要求
  • 框架与优化技术(例如FlashAttention、定制内核)可能降低实际使用量;本计算器会保持保守估计。

因此请将结果作为规划参考:如果工具显示约17 GB,建议至少配备24 GB显存的显卡以留出余量。


尝试使用LLM GPU显存计算器

使用本页计算器:输入您的模型规模和精度,点击计算内存,即可即时获取以GB为单位的GPU总显存模型权重估算值。无需注册、无需安装——快速查看您下一个大语言模型需要多少GPU内存。