Google Agentic RAG:不再"差不多"的企业级 RAG
当 RAG 学会说"我不确定,让我再查查"——深度拆解 Google 的 Sufficient Context Agent 如何把检索准确率提升 34%
为什么 Vanilla RAG 不够用了
传统 RAG 的致命缺陷不是"检索不到",而是检索到了但不自知还缺什么
传统 RAG(Retrieval-Augmented Generation)的工作方式很直接:用户提问 → 检索文档 → LLM 生成回答。一条流水线,一次机会。
这在简单问答场景("公司的退货政策是什么?")没问题。但企业现实中的查询往往是多源、多跳的:
例子:"Project X 用的那台服务器配置是什么?"
→ 文档 A 提到 Project X 和一个 Server ID
→ 但 Server ID 对应的配置在数据库 B 里
→ Vanilla RAG 找到 A 就停了,回答"没找到"或编一个
这就是 "信息孤岛" 问题——信息分散在不同数据源,单步检索根本串不起来。
Google Agentic RAG 架构拆解
Google 的方案用一个词概括:持久性(Persistence)。系统知道自己缺少什么,会反复搜索直到信息充分
五阶段流水线
Orchestration
Root Agent 解析用户请求,分解为子任务
Search
RAG Agent 并行检索多个数据源
Sufficient Context
核心创新——充分性检查,判断信息是否足够
Iteration
针对缺失信息,Query Rewriter 生成新搜索 query 补检索
Synthesis
所有上下文充分后,整合生成最终回答
多 Agent 角色分工
| Agent | 角色 | 类比 |
|---|---|---|
| Root Agent | 解析请求,委派任务 | 项目总监 |
| Planner Agent | 规划信息路径,决定查哪些数据源 | 调研策略师 |
| Query Rewriter | 将复杂请求拆成多个精确搜索 query | 搜索优化师 |
| Search Fanout Agent | 并行发送检索请求到多个数据源 | 一线调研员 |
| Sufficient Context Agent | 检查检索结果是否充分(核心创新) | 质检官 |
| Synthesis Agent | 整合所有上下文生成最终回答 | 报告撰写师 |
核心创新:Sufficient Context Agent
这是整个架构的灵魂。它不是一个简单的"有/没有"判断,而是一个三重质量检查:
Retrieved Snippets 评估
直接检查检索到的文本片段是否包含回答所需的信息
Intermediate Draft 审查
先让模型生成草稿,然后检查草稿是否完整回答了所有子问题
Missing Pieces 分析
精确输出缺失内容和补救建议:"你找到了药物和饮食信息,但缺失过敏记录。回去搜索'皮疹'或'不良反应'。"
这个机制的背后是一篇 ICLR 2025 论文 "Sufficient Context: A New Lens on RAG Systems"。关键发现:
- 用 Gemini 作为 autorater,对"上下文是否充分"的分类准确率达到 93%+
- 添加上下文反而增加幻觉:Gemma 在 insufficient context 下,错误率从 10.2% 飙升到 66.1%
- Open-source 小模型在 sufficient context 下仍大量幻觉或拒绝回答
实战案例:医疗场景
文章给了一个极其复杂的医疗查询:
查询:"John Doe 膝盖手术后的出院药物、饮食限制、住院期间有无过敏反应?不要包括住院/急诊期间用的药(肝素 IV 滴注和 Tenecteplase 除外)。"
Vanilla RAG 的做法
- 搜索一次 → 找到药物 + 饮食
- 过敏信息不在最明显的文档里
- 模型猜测或回答"信息不足"
- 结果:不完整或错误
Agentic RAG 的做法
- 搜索一次 → 找到药物 + 饮食
- Sufficient Context Agent 检测到"过敏信息缺失"
- 反馈 → Query Rewriter 新搜索"皮疹/不良反应"
- 二次检索 → 找到过敏记录
- 再次充分性检查 → 通过 → 生成最终回答
硬核数据:FramesQA Benchmark
824 个查询 + 2,676 篇 PDF 文档,基于 FRAMES 论文的多跳推理 benchmark
Cross-corpus 准确率几乎和 Single-corpus 持平
Cross-corpus(跨 4 个数据源)的准确率几乎和 Single-corpus(单数据源)持平。这意味着 Planner Agent 在 4 个选项中正确路由搜索的能力极强,且额外延迟仅 ~3%。
这对企业场景意义重大:不同团队管理不同数据库,Agentic RAG 能自动定位正确的数据源。
一个经典多跳问题示例:
问题:"收视率最高的两部电视剧最终集(截至 2024.6),哪个更长,长多少?"
需要的推理步骤:
1. 识别收视率 Top 2 → M*A*S*H 和 Cheers
2. 查找各自最终集时长
3. 计算差值
Vanilla RAG:"尽管多次扫描,未找到 M*A*S*H 或 Cheers 的明确时长信息。"
Agentic RAG:"M*A*S*H 最终集 150 分钟,比 Cheers 的 98 分钟长 52 分钟。"
竞品对比:Agentic RAG 江湖 2026
Google 的 Agentic RAG 不是唯一玩家,2026 年 Agentic 框架生态已经非常拥挤
| 框架 | 核心定位 | 月下载量 | 与 Google Agentic RAG 对比 |
|---|---|---|---|
| LangGraph | 有状态多 Agent 工作流 | 7.1M | 通用编排框架,需自建充分性检查逻辑 |
| CrewAI | 角色扮演多 Agent 快速原型 | 14 亿自动化任务 | 快速但不具备持久检索循环 |
| Microsoft Agent Framework | AutoGen + Semantic Kernel 合并 | Azure 原生 | 企业安全特性强(PII 检测、Prompt Shield),RAG 专精度不如 Google |
| LlamaIndex | RAG + 数据索引 | — | 检索索引生态最丰富,但多 Agent 协作弱 |
| Google ADK | 开源多 Agent 开发套件 | — | 底层框架,Agentic RAG 是其上的垂直解决方案 |
| Claude Agent SDK | 自主工具调用 Agent | — | 通用 Agent 而非 RAG 专精,沙箱执行能力强 |
Sufficient Context Agent 是独门武器
Sufficient Context Agent 是独门武器。其他框架(LangGraph、CrewAI)提供了编排能力,但没有内建的"上下文充分性检查"概念。Google 把 ICLR 2025 的学术成果直接产品化了。
另一个护城河:Cross-Corpus Retrieval——跨多个无关数据源的智能路由,这是企业真实痛点,其他方案大多只处理单源场景。
设计哲学:为什么"不猜"比"答对"更重要
这个系统的设计哲学值得所有 RAG 从业者思考
诚实 > 自信
传统 LLM 倾向于"有话要说",即使信息不足也会编一个。Agentic RAG 反过来——宁可多搜一轮,也不在信息不足时给出答案。
从"相关性"到"充分性"
传统 RAG 评估检索质量看 relevance(相关性)。Google 引入 sufficiency(充分性)——返回的文档足以回答问题吗?相关性不等于充分性。
选择性生成
结合"上下文充分性信号"和"模型自信度",训练逻辑回归来决定是否应该拒绝回答。某些场景下能将准确率提升 10%。
相关性 ≠ 充分性。一个关于 404 错误码的文档可能高度相关,但如果它不提"Room 404 at CERN",就无法回答"404 错误码以哪个实验室的房间命名?"
局限与批判思考
不是银弹——延迟、成本、评估基准和生态锁定都是现实问题
多轮检索循环的响应时间
多轮检索循环意味着更长的响应时间。文章没给出绝对延迟数据,只说 cross-corpus 和 single-corpus 差异 ~3%。但对于实时对话场景,这可能不可接受。
每个查询 5-10 次 LLM 调用
每个 Phase 都有 LLM 调用(Planner + Rewriter + RAG Agent + Sufficient Context Agent + Synthesis),一个查询可能消耗 5-10 次 LLM 调用。
FramesQA 的 824 个查询够吗?
FramesQA 的 824 个查询是否足够代表企业场景?Multi-hop QA 和企业文档检索的难度分布差异很大。
GCP 深度绑定
这个方案运行在 Gemini Enterprise Agent Platform 上,深度绑定 Google Cloud 生态。公开数据也有限——文章提到"内部数据集也有提升"但没有给出具体数字。
对从业者的影响
| 角色 | 影响 | 建议 |
|---|---|---|
| RAG 工程师 | Sufficient Context 概念可独立使用 | 即使不用 Google 平台,也能在自己的 RAG pipeline 中加入充分性检查 |
| 架构师 | Cross-Corpus Routing 是企业级刚需 | 重新评估"单一知识库"假设,多数企业数据天然是多源分布 |
| 产品经理 | "不回答"比"回答错"的用户体验更好 | 在产品设计中明确"信息不足"的处理策略,而非追求 100% 回答率 |
| 研究者 | FRAMES + Sufficient Context 是新的研究范式 | 关注"充分性"而非"相关性"作为检索质量指标 |
Vanilla RAG 就像一个只看第一页搜索结果就写报告的人;Agentic RAG 像一个知道"我还需要再查查"的靠谱研究员。
Vanilla RAG writes a report after scanning the first page of results. Agentic RAG is the researcher who says "let me dig deeper before I commit to an answer."