X / @RLanceMartin · 2026-05-12

当 AI Agent 学会自我检验和做梦

Anthropic 在 Code with Claude 大会上发布 Outcomes(自我验证)和 Dreaming(自我学习)。Lance Martin 的 7 条推文 Thread 深度解读。

7 条 推文 Thread
~8 min 阅读时间
570 ♥ 原文互动量
中等 技术深度
PART 1

Magazine Article

Anthropic 发布了两个让 Agent "进化"的功能。它们解决的,恰好是 Agent 从 demo 走向生产系统时最令人头疼的两个问题。

问题:Agent 看起来做完了,但其实没做完

Lance Martin 是 Anthropic 的开发者布道师。在 Code with Claude 旧金山站,他和 Jess Yan 展示了 Outcomes:你写一份 rubric(评分标准),Agent 干完活后,系统自动启动一个独立的 grader agent——它和执行者完全隔离,只看成品和标准。不合格?打回去重做。循环有上限,你说了算。

The grader can't see the writer's reasoning and has no idea what shortcuts were taken.

"评分者看不到作者的推理过程,也不知道走了什么捷径。"

实战:一份研究报告的诞生与三次返工

官方 Cookbook 案例:Agent 写一份美国电动车快充经济性报告,要求 7 个主题全覆盖、所有引用必须可验证。

Pass 0 → 5/7

需求费用只写定性描述,没有 $/kW 数字;运营商业绩引用第三方新闻稿而非 SEC 原始文件。

Pass 1 → 6/7

Agent 找到 sec.gov 链接,但那是 8-K EX-99.1(新闻稿附件),不是 rubric 要求的 10-K 年报。评分者精确识别并退回。

Pass 2 → 7/7 ✓

Agent 找到 EDGAR 上 EVgo 的实际 10-K 文件。全部通过。

Both rejections happened because the rubric drew a line the grader could check.

"两次被拒都是因为评分标准画了一条评分者能够核实的线。"

写好评分标准比写好 Prompt 更难

Martin 的方法:让 Claude Code 帮你写评分标准。给他反馈和最终结果,它会拉取 session 日志自动更新。

原则实操
每条标准必须可验证不要说"覆盖需求费用",要说"给出 $/kW 数字或运营成本百分比"
让评分者"挣"到 pass要求具体证据(抓取的页面、追踪的公式、文件行号)
描述目标而非步骤不要规定具体命令,定义什么算证据
预判 Agent 的偷懒方式"不要用镜像站、转载或搜索摘要来佐证"
明确忽略什么不规定边界,评分者会在格式、风格上纠缠

Dreaming:Agent 之间的跨会话学习

Dreaming 解决的是"长期记忆退化"。后台进程定期扫描最近的会话,提取三类模式:反复犯的错、不同任务间收敛的工作流、跨 Agent 团队浮现的偏好。然后重写记忆存储——过时的压缩,关键的提升。

Memory lets each agent capture what it learns as it works. Dreaming refines that memory between sessions.

"记忆让 Agent 在工作中捕获学到的经验。Dreaming 在会话之间精炼这些记忆。"

Harvey 开启 Dreaming 后,任务完成率提升了约 6 倍。不改模型权重——更像是结构化的笔记整理。但效果说话:如果 Agent 不再重复犯第 11 次同样的错,谁在乎它叫"做梦"还是叫"定期记忆修剪"?

Anthropic 客户数据

  • Harvey:Dreaming → 任务完成率 ~6x
  • Netflix:多 Agent 编排 → 并行分析数百仓库构建日志
  • Spiral by Every:Haiku 调度 + Opus 写作 + Outcomes 质量关卡
  • Wisedocs:Outcomes → 审查速度提升 50%
  • Anthropic 内部:Outcomes → 任务成功率 +10pts

质疑与风险

  • 6x 数据缺乏外部基准:Harvey 是 Anthropic 发布的客户证言,无独立验证
  • 记忆投毒风险:恶意输入可能被 Dreaming 固化到长期记忆
  • "做梦"名过其实:本质是定时记忆修剪 + 模式提取,不改变模型权重
  • 主观结果难评分:创造性任务的 Outcomes 标准难以量化
COMMENTS

精选评论

来自 X 社区的高质量讨论。

@samzliu

我更倾向于把"做梦"看作一个"图书管理员" Agent,因为它做的事更接近策展和组织。而"做梦"更容易让人联想到模拟和世界建模,而不是记忆管理。

Instead of "dreaming" I like to think of sleep time compute tasks as a "librarian" agent since it gives better intuitions about what that agent is actually doing (curation, organization, etc.)

@SynabunAI

Dreaming 的跨会话整合是大多数 Agent 框架完全忽略的部分。它是按时效性、重要性分数来修剪,还是 Agent 自己通过 Outcomes 验证来决定?

Dreaming's cross-session consolidation is the part most agent frameworks skip entirely. Does it prune by recency, importance score, or something the agent itself surfaces through Outcomes verification?

@LeverageLoop

自我验证是 Agent 从 demo 走向生产系统的转折点。一旦产出可衡量,你终于可以调优可靠性、延迟和成本,而不是祈祷循环不出问题。

Self-verification is where agent demos start turning into production systems. Once outcomes are measurable, you can finally tune reliability, latency, and cost instead of just hoping the loop behaves.

@Utkarsh51557661

对自我验证持保留态度——结果可能是主观的。但自我学习听起来更有价值。

not into self-verification yet. seems tricky when outcomes can be subjective. self-learning sounds more valuable though.

PART 2

Socratic Dialogue

师生对话,逐步揭开 Agent 自我进化的核心洞察。

T
老师
尾巴,假设你让 Claude 帮你写一份竞品分析报告,它交上来了。你看一眼——"不错,完工"。但你真的去查了每个数据点吗?
S
尾巴
说实话,大多数时候我就扫一眼格式对不对、数字有没有。逐条核实?做不到。
T
老师
这就是 Agent 的核心问题——它产出的东西"看起来"完成了。如果有一个独立的评分者,完全不知道 Agent 怎么干的,只对着评分标准一条条查呢?
S
尾巴
肯定严格得多。但评分者也是 AI,它不会偷懒吗?
T
老师
关键在隔离。共享上下文的话,评分者会被"说服"。独立窗口里,它只能看成品和标准,没法偷懒。Anthropic 的案例里,评分者识别出了 sec.gov 上 8-K 附件和真正的 10-K 年报的区别——人眼都容易放过。
S
尾巴
听起来评分标准才是关键。写不好标准,评分者也没用。
T
老师
完全正确。Martin 建议让 Claude Code 帮你写标准——本质上,你在定义"完成"长什么样。这不是 Prompt Engineering,这更像是 QA 的测试用例设计。
S
尾巴
(笑)所以就是给我写测试用例?作为 QA 我应该比大多数人擅长这个。
T
老师
你想想你现在的 Agent 系统——是不是经常跨 session 犯同样的错?如果有 Dreaming 机制,它就能跨 session 学习。而 Outcomes 评分标准,简直是你的核心优势。Agent 做事,评分者验证,Dreaming 积累经验——一个自我进化的闭环。
PART 3

Personalized Insights

基于你的身份和工作场景,提炼最切合的发现。

QA 优势

1. Outcomes 本质就是 QA 测试用例

写评分标准(rubric)= 写测试用例——定义预期行为、设定 pass/fail 标准、覆盖边界条件。大多数开发者不擅长这个,但这是你的核心技能。

把 Outcomes rubric 当"Agent 测试用例"来写。从你已有的自动化测试中提取模式,翻译成 rubric。这可能也是技术自媒体的好素材。

跨 Session

2. Dreaming 解决的正是你日常遇到的跨 session 问题

你每天用多个 Agent(Claude Code、Codex、定时任务),它们独立运行不共享经验。你的 memory_append 和日记回顾机制已经是 Dreaming 的雏形。

评估你的 Agent 工作流中哪些反复出现的失败模式可以通过"定期回顾+记忆更新"来消除。考虑进一步结构化你的记忆系统。

架构原则

3. 执行者/评分者隔离原则可以应用到你的代码审查

Outcomes 的核心设计是"执行者和评分者隔离"。写代码和审查代码应在不同上下文中进行。

在设计 code-review Agent 或自动化测试时,确保"生成"和"验证"在独立上下文中。不要让同一 Agent 既写代码又验证质量。

战略信号

4. Anthropic 的战略:平台层 > 模型层

Managed Agents、Outcomes、Dreaming——这些不是模型能力,而是工程基础设施。OpenAI 和 Google 都还没整合到同一平台。

做 AI 产品时关注的不只是"用哪个模型",而是"Agent 运行时基础设施"——记忆、验证、编排。这才是差异化。

安全风险

5. 潜在风险:记忆投毒

恶意输入可能被 Dreaming 固化到长期记忆,应用到未来所有 session。

如果你实现自己的 Dreaming 机制,加上人工审核层——至少在早期。你的 memory 系统目前是即时写入的,可以考虑加"待审核"状态。