KV Cache：支撑长上下文大模型的隐形引擎

当你与 GPT-4 或 Claude 3 这样的大语言模型（LLM）对话时，即使是分析一份 50 页的 PDF，你也能获得近乎即时的响应。然而，随着对话的深入，你可能会注意到延迟变高了，或者如果你是在本地运行模型，甚至会遇到“显存溢出”（Out of Memory, OOM）的错误。

造成这一切的罪魁祸首——同时也是幕后英雄——正是 KV Cache（键值缓存）。它是优化自回归模型推理速度最关键的组件，但同时也带来了高昂的显存代价。无论你是想优化 LLM 部署、构建 RAG 管道，还是仅仅想弄明白为什么长上下文模型需要昂贵的 GPU，理解 KV Cache 都至关重要。

核心概念：为什么我们需要缓存？

要理解 KV Cache，我们需要先看看 LLM 是如何生成文本的。LLM 是自回归（autoregressive）的，这意味着它一次只生成一个 Token（词元）。每一个新 Token 的生成都依赖于所有之前的 Token 来保持上下文连贯。

注意力机制的难题

在 Transformer 架构中，“自注意力”（Self-Attention）机制允许模型回溯之前的 Token，以确定当前 Token 的含义。

从数学上讲，对于每一个 Token，模型都会计算三个向量：

Query ($Q$): 当前 Token 正在寻找什么信息。
Key ($K$): 当前 Token 如何定义它自己。
Value ($V$): 该 Token 的实际内容/信息价值。

如果没有缓存，生成第 100 个 Token 时，模型需要重新计算第 1 到第 99 个 Token 的 $K$ 和 $V$ 矩阵。生成第 101 个 Token 时，又要重新计算第 1 到第 100 个。这会导致计算复杂度呈平方级增长，造成极大的算力浪费。

解决方案

既然过去 Token 的 Key 和 Value 向量一旦计算完成就不会改变，我们可以将它们存储（缓存）在 GPU 显存中。当生成新 Token 时，模型只需计算新 Token 的 $Q, K, V$，并从缓存中提取历史的 $K$ 和 $V$ 即可。

流程可视化

下图展示了引入 KV Cache 后，推理过程发生的变化：

graph TD
    A["用户提示词 (Input)"] --> B["预填充阶段 (Prefill)"]
    B --> C["计算所有输入 Token 的 K 和 V"]
    C --> D["存入 KV Cache (显存)"]
    D --> E{"生成循环 (Decoding)"}
    E --> F["输入新 Token"]
    F --> G["仅计算新 Token 的 Q, K, V"]
    G --> H["从 Cache 中检索过去的 K, V"]
    H --> I["执行注意力计算 (新 Q vs 缓存的 K, V)"]
    I --> J["输出下一个 Token"]
    J --> K["将新 K, V 追加到 Cache"]
    K --> E

代码实现：一个基础的 KV Cache

虽然深度学习库会自动处理这些，但通过 Python 代码可以更清晰地理解其逻辑。以下简化代码展示了在前向传播（Forward Pass）中如何初始化和更新缓存。

import torch

class SimpleKVCache:
    def __init__(self, max_seq_len, hidden_dim):
        # 初始化空的缓存张量
        # 形状: [Batch Size, Sequence Length, Hidden Dimension]
        self.k_cache = torch.zeros(1, max_seq_len, hidden_dim)
        self.v_cache = torch.zeros(1, max_seq_len, hidden_dim)
        self.current_pos = 0

    def update(self, key_state, value_state):
        """
        使用新 Token 的 Key 和 Value 状态更新缓存。
        """
        seq_len = key_state.shape[1]
        
        # 将新的 K 和 V 插入预分配的缓冲区
        self.k_cache[:, self.current_pos : self.current_pos + seq_len, :] = key_state
        self.v_cache[:, self.current_pos : self.current_pos + seq_len, :] = value_state
        
        self.current_pos += seq_len
        
        # 返回切片后的缓存，仅包含截至 current_pos 的有效数据
        return (
            self.k_cache[:, :self.current_pos, :], 
            self.v_cache[:, :self.current_pos, :]
        )

# 使用模拟
# 假设我们要处理模型针对最新 Token 生成的 new_k 和 new_v
# cache_engine.update(new_k, new_v)

逐步解析：推理的生命周期

预填充阶段 (Prefill Phase):
当你发送提示词时，模型会并行处理所有输入 Token。它计算整个提示词的 $K$ 和 $V$ 矩阵并将它们存入缓存。这一步通常是计算受限（Compute-bound）的（瓶颈在于 GPU 的运算速度）。
解码阶段 (Decoding Phase / Token Generation):
模型切换到逐个生成 Token 的模式。它抓取缓存数据，仅处理单个新 Token。
- 瓶颈切换： 这个阶段通常是显存带宽受限（Memory-bandwidth bound）的。GPU 花在将庞大的 KV Cache 从显存搬运到计算核心上的时间，比实际做数学运算的时间还要多。
显存爆炸 (The Memory Explosion):
随着上下文长度的增加，KV Cache 呈线性增长。
- 注：公式中的 ‘2’ 代表同时存储 K 和 V。
上下文窗口限制:
最终，KV Cache 会填满可用的 GPU 显存。一旦发生这种情况，模型就无法处理更多 Token，导致上下文被截断或程序崩溃。

显存影响分析

下表说明了为什么运行长上下文模型（如 128k 上下文）需要巨大的显存——这主要是 KV Cache 造成的，甚至还没算模型权重本身的占用。

假设条件：Llama-3-70B 模型，Float16 精度（每个元素 2 字节），粗略估算。

上下文长度 (Tokens)	KV Cache 大小 (约)	对消费级硬件的影响
4,096	~0.6 GB	忽略不计。大多数显卡都能轻松通过。
32,000	~5.0 GB	显著。需要 12GB+ 显存的显卡。
128,000	~20.0 GB	严重。算上模型权重后，RTX 4090 (24GB) 也会爆显存。

高手进阶：优化 KV Cache

如果你正在部署 LLM 或构建应用，仅靠标准的缓存机制往往是不够的。请尝试以下高级技术来管理显存占用：

使用 PagedAttention (vLLM): 传统的缓存机制会预留连续的内存块，导致严重的碎片化和浪费。vLLM 使用了 PagedAttention（灵感源自操作系统的虚拟内存），将 Key 和 Value 存储在不连续的内存块中，吞吐量最高可提升 24 倍。
分组查询注意力 (GQA): 像 Llama 3 这样的现代模型使用了 GQA (Grouped Query Attention)。它们不再为每个 Query 头分配唯一的 Key 和 Value 头，而是共享 KV 头。这能大幅减小缓存体积（通常减少 8 倍），而性能损失微乎其微。
KV Cache 量化 (Quantization): 你可以压缩 KV Cache 本身（例如，从 FP16 压缩到 INT8 或 FP8）。这能在相同的显存占用下，将最大上下文长度翻倍。
FlashAttention: 确保你的后端使用了 FlashAttention-2。它优化了注意力机制的读写操作，显著减少了解码阶段的显存带宽瓶颈。

KV Cache 是现代 LLM 的效率引擎，本质上是用显存空间换取计算速度。虽然它成就了我们今天享受的流畅对话体验，但也是长上下文应用的主要瓶颈。通过利用 PagedAttention 和量化等技术，你可以更好地驾驭 KV Cache，在有限的硬件上运行更长的上下文。

KV Cache：支撑长上下文大模型的隐形引擎

核心概念：为什么我们需要缓存？

注意力机制的难题

解决方案

流程可视化

代码实现：一个基础的 KV Cache

逐步解析：推理的生命周期

显存影响分析

高手进阶：优化 KV Cache

You Missed

跨越内存墙：深入解析 LLM 算子加速库

为什么人工智能仍然无法理解讽刺语气?

黑匣子：为何连AI创造者都无法完全解释其模型的思考方式

当人工智能开始基于AI生成内容进行训练时会发生什么？

KV Cache：支撑长上下文大模型的隐形引擎

核心概念：为什么我们需要缓存？

注意力机制的难题

解决方案

流程可视化

代码实现：一个基础的 KV Cache

逐步解析：推理的生命周期

显存影响分析

高手进阶：优化 KV Cache

Related Post

跨越内存墙：深入解析 LLM 算子加速库

为什么人工智能仍然无法理解讽刺语气?

黑匣子：为何连AI创造者都无法完全解释其模型的思考方式

You Missed

跨越内存墙：深入解析 LLM 算子加速库

为什么人工智能仍然无法理解讽刺语气?

黑匣子：为何连AI创造者都无法完全解释其模型的思考方式

当人工智能开始基于AI生成内容进行训练时会发生什么？