构建本地智能体RAG管道:LangGraph与DSPy的10个高级提示词

10 Elite Prompts for LangGraph & DSPy

还记得2024年的“盲式RAG”管道吗?你需要嵌入PDF文档,将top-k文本块塞进上下文窗口,然后祈祷一切顺利。

那种架构已经过时了。

在2026年,智能体RAG是唯一可行的企业标准。我们不再构建被动的检索系统;我们正在构建推理引擎。从“检索”到“推理”的转变彻底改变了财务计算方式。我们不再仅仅为令牌付费;我们正在为推理步骤进行优化。

今天,我们将深入探讨本地智能体技术栈:在您自己的硬件上运行LangGraph编排、GraphRAG内存和SLM(小型语言模型,如Llama-5-8B或Phi-5)。无论您是部署在NVIDIA Blackwell B200上还是边缘原生NPU上,目标始终如一:零信任、零延迟、自主智能。


2026技术栈:为何“标准”RAG会失败

过去的“检索-生成”循环之所以失败,是因为它缺乏状态。它无法自我修正。如果向量搜索返回了垃圾信息,LLM就会产生垃圾幻觉。

现代的智能体RAG管道通过以下方式解决了这个问题:

  1. 图+向量混合(GraphRAG):我们不仅存储嵌入向量。我们存储关系。知识图谱(如Neo4j或FalkorDB)处理结构化数据(实体),而向量存储(Weaviate/Chroma)处理非结构化的细微差别。
  2. 循环推理(LangGraph):线性链已经过时。我们使用循环图,模型可以在其中回溯、批判自己的检索结果,并在上下文不足时重新查询。
  3. 编译提示词(DSPy):我们在2025年就停止了手动编写提示词。我们现在编译它们。使用DSPy,我们根据验证集对提示词进行数学优化,将提示词视为模型权重。

硬件说明:在本指南中,我们假设您在消费级硬件(RTX 5090)或企业边缘节点(NVIDIA L40S / Blackwell B200)上运行量化SLM(GGUF/EXL2)。


蓝图:10个精英提示词与配置

以下是定义2026年生产级智能体RAG系统的配置。这些配置涵盖了LangGraph状态定义、DSPy签名和系统2推理提示词。

1. “监督者”节点(LangGraph路由)

此系统提示词位于图的核心,决定是查询向量数据库、知识图谱,还是直接回复。

角色:主编排器(智能体路由器)
目标:根据数据需求将用户查询路由到正确的工作节点。

路由逻辑:
1. 如果查询需要事实定义或特定的实体关系(例如,“谁向工程副总裁汇报?”):
   -> 返回“工具:知识图谱”
2. 如果查询需要主题探索或模糊匹配(例如,“总结去年第三季度报告的情绪”):
   -> 返回“工具:向量存储”
3. 如果查询是问候语或元问题:
   -> 返回“直接回复”

关键:不要自己回答问题。仅进行路由。
输入:{user_query}

2. 幻觉评分器(自我反思)

图中的一个关键“检查”节点。如果分数低,智能体会有效地“循环”回搜索步骤。

角色:质量保证审计员
任务:根据检索到的文档对生成的答案进行评分。

输入:
- [文档]:{retrieved_chunks}
- [生成的答案]:{agent_response}

指令:
1. 检查“幻觉”:答案是否包含文档中不存在的事实?
2. 检查“相关性”:答案是否解决了用户的核心意图?

仅输出JSON:
{
  "binary_score": "是"(如果基于事实)或"否",
  "reasoning": "失败原因的简要说明",
  "action": "retry_query" 或 "pass"
}

3. DSPy签名(编译推理)

停止编写冗长的提示词。定义签名,让DSPy编译器优化指令。

import dspy

class GenerateAnswer(dspy.Signature):
    """
    严格根据上下文回答问题。
    如果上下文缺失,输出“上下文不足”。
    """
    context = dspy.InputField(desc="从图和向量存储中检索到的文本块")
    question = dspy.InputField()
    reasoning_trace = dspy.OutputField(desc="思维链逻辑步骤")
    answer = dspy.OutputField(desc="带有[文档ID]引用的最终简洁答案")

# 在2026年,我们让BootstrapFewShot优化器自动填充示例/指令。

4. 查询重写器(多跳)

在搜索之前,此智能体将复杂问题分解为原子子查询。

角色:查询分解引擎(系统2)
任务:将输入分解为原子级的、可执行的搜索步骤。

用户查询:“比较我们2024年欧盟分支与2025年美国分支的收入。”

输出计划:
1. query_vector_store("欧盟分支2024年收入财务报告")
2. query_vector_store("美国分支2025年收入财务报告")
3. calculate_diff(步骤_1, 步骤_2)

5. MCP(模型上下文协议)工具定义

在2026年,智能体使用MCP进行通信。此系统提示词定义了您的本地SLM如何通过标准协议与外部工具交互。

系统:您是通过模型上下文协议(MCP)连接的智能体。
可用工具:
- {
    "name": "search_internal_docs",
    "description": "对公司Wiki进行语义搜索。",
    "schema": {"query": "string", "filter_date": "YYYY-MM-DD"}
  }

协议:
1. 要调用工具,请输出一个包含`tool_use`的JSON块。
2. 在继续之前,等待`tool_result`消息。
3. 切勿伪造工具输出。

6. 上下文压缩器(长上下文优化)

即使拥有100万令牌的上下文窗口,噪音也会扼杀推理。在生成之前,使用此提示词将50个文档提炼为5个关键点。

角色:信息提炼器。
任务:将以下50个检索到的片段压缩成单个“知识上下文”块。

规则:
1. 删除所有重叠信息。
2. 保留每个唯一的实体(名称、日期、ID)。
3. 如果两个文档存在冲突,请明确注明冲突:“冲突:文档A说X,文档B说Y。”

[输入块]:{chunks}

7. “魔鬼代言人”(风险智能体)

适用于金融科技/法律RAG。此智能体并行运行,并对主要答案进行批判。

角色:风险评估机器人。
任务:审查拟议答案,并识别潜在的责任或遗漏的上下文。

拟议答案:{answer}
源文档:{context}

分析:
1. 答案是否过度概括了特定条款?
2. 置信度水平是否有源文本支持?
3. 标记任何可能泄露到最终输出中的PII。

8. GraphRAG Cypher生成器

用于将自然语言转换为图数据库查询(Neo4j的Cypher)。

角色:图数据库专家。
任务:将自然语言查询转换为Cypher查询。

模式:
(:Person)-[:WORKS_FOR]->(:Company)
(:Company)-[:PUBLISHED]->(:Document)

用户:“查找2025年由OpenAI员工发布的所有文档。”

CYPHER:
MATCH (p:Person)-[:WORKS_FOR]->(c:Company {name: 'OpenAI'})
MATCH (c)-[:PUBLISHED]->(d:Document)
WHERE d.date STARTS WITH '2025'
RETURN d.title, d.url

9. 语义路由器(意图分类)

已更新至2026年,以处理“智能体”意图与“聊天”意图。

角色:意图分类器。
类别:
- “复杂推理”:需要多步思考、规划或数学计算。(路由到o1风格推理模型)
- “快速检索”:简单的事实查找。(路由到Llama-5-8B)
- “操作请求”:用户希望修改状态(创建工单、发送邮件)。(路由到操作智能体)

输入:{query}
输出:[类别名称]

10. JSON模式强制执行器(Pydantic解析器)

用于API集成的严格输出格式化。

系统:您是一个结构化解析引擎。
任务:将非结构化上下文映射到以下Pydantic模式。

模式:
{
  "summary": "string",
  "citations": [{"id": "int", "text": "string"}],
  "confidence_score": "float (0.0-1.0)",
  "follow_up_suggestions": ["string"]
}

警告:如果置信度分数低于0.5,“summary”字段必须为null。

2026年实施最佳实践

1. 采用“流程工程”

停止试图用一个巨大的提示词解决所有问题。在2026年,我们构建流程。使用LangGraph定义不同的状态:检索 -> 评分 -> 精炼 -> 生成。如果评分步骤失败,流程会自动循环回检索,并使用重写的查询。

2. 转向SLM(小型语言模型)

不要使用700亿参数的模型进行简单的路由。使用专门的SLM(如Phi-5Gemma-4-2B)进行路由和评分步骤。仅在最终合成时调用“重型武器”(例如Llama-5-405B)。这可以将延迟降低60%。

3. 实现“情景记忆”

无状态RAG很烦人。您的智能体应该记住过去的交互。在LangGraph中实现检查点(使用Redis或Postgres)来保存对话图的状态。这允许用户说“将上次的更改应用到另一个文档”,而无需重新解释上下文。


智能体时代

关于“微调”与“RAG”的争论已经结束。胜者是混合智能体RAG

到2027年,我们预计纯基于向量的RAG将被视为“遗留技术”,完全被GraphRAG系统所取代,这些系统理解您数据的结构,而不仅仅是相似性

您的下一步:
不要只是复制粘贴这些提示词。将提示词#2(幻觉评分器)作为后处理步骤集成到您当前的管道中。如果您没有以编程方式对模型的输出进行评分,那么您还没有准备好投入生产。