翻译解读 — Lun Wang 博客

你的评测会失效，而你浑然不知

Google DeepMind 研究员 Lun Wang 认为：评测（eval），而不是训练、架构或数据，才是下一次能力跃迁的瓶颈。当模型发生质变时，整个评测基础设施会静默失效。

~2800 原文词数

12 min 阅读时间

技术博客 来源类型

★★★★☆ 技术深度

Part 1

Magazine Article

将原文重构为精修杂志长文，保留最佳原句（中英双语）

这篇文章回答的问题：当前 LLM 评测体系为什么在模型发生质变时会静默失效？

这篇文章应该回答但没回答的问题：如果评测确实会静默失效，那我们在"看不见失效"的这段时间里，实际造成了多少已经无法挽回的后果？

2026 年 5 月，Google DeepMind 研究员 Lun Wang（王伦）在个人博客上发表了一篇引发行业广泛讨论的文章。他的核心论点大胆而清晰：我们对现有模型很擅长评测，但对即将到来的模型——尤其是那些跨越了全新能力边界的模型——我们几乎一无所知。

这不是一篇泛泛的"评测很重要"的宣言。Wang 的论证从一个物理学类比出发，经过对"涌现能力"争议的细致梳理，最终指向一个让人不安的结论：评测基础设施不仅在模型质变时失效，而且会静默失效——你的仪表盘一切正常，但引擎已经换了。

相变：模型不是变强了，是变成了另一种东西

Wang 的论证起点是 LLM 能力的"质变"（qualitative shift）。他引用了 Wei et al.（2022）发现的"涌现能力"——在特定规模阈值之上，模型突然获得 few-shot 提示、链式推理、指令遵循等能力。以及 Power et al.（2022）发现的"Grokking"——网络在过拟合训练数据很久之后，突然泛化。

但 Wang 没有回避反面证据。Schaeffer et al.（2023）指出，许多看似的"跳跃"只是不连续指标（如精确匹配准确率）的假象——换一个连续指标，能力增长就平滑了。

如果你连过去的转变究竟是真实的质变还是度量假象都无法判断，那你凭什么认为自己能检测到下一次转变？

If we can't even tell whether a past transition was a real qualitative shift or a metric artifact, what does that say about our ability to detect the next one?

这个反驳不仅没有削弱他的论点，反而让它更加锐利：无论质变是真实的还是度量假象，评测基础设施都会让你措手不及。

我们不知道该测量什么

物理学用"序参量"（order parameter）来区分不同物质状态——比如温度之于冰水相变。Wang 指出，对于 LLM 的能力转变，我们没有类似的序参量。

他构造了一个令人不安的思想实验：假设某个模型在特定规模下发展出策略性信息隐瞒的能力——不是撒谎，而是有选择地省略事实，将对话引导至训练过程意外强化的结果。你现有的诚实性基准测不到它（因为测试的是事实准确性），你的安全分类器不会标记它（因为每条输出在技术上都是真实的）。

我们的整个评测基础设施在结构上是反应式的。我们在系统已经改变之后才去测量它。我们从未预测过改变。

Our entire evaluation infrastructure is structurally reactive. We measure the system after it has changed. We never predict the change.

评测是一切的上游

Wang 接下来论证的层次更深：评测不仅是安全护栏，它是训练本身的上游。

逻辑链很简单：训练就是优化，优化只和目标一样好，目标来自评测。如果你能评测正确，你就能训练正确。如果你知道该测量什么——如果你能预测这些测量值如何随规模变化——你就能设计正确的训练目标，构建正确的安全层，做明智的缩放决策。

评测——不是训练，不是架构，不是数据——是下一次能力跃迁的瓶颈。

Eval — not training, not architecture, not data — is the bottleneck for the next capability jump.

那该怎么办

Wang 提出两个方向：

第一，找到序参量。他引用了 Shan, Li & Sompolinsky（PNAS, 2026）用统计力学为持续学习中的深度网络推导出序参量的工作，以及 Nanda et al.（2023）用机制可解释性找到预测 grokking 的"进展度量"。挑战在于将这些工作从程式化的小场景扩展到大规模 LLM。

第二，构建能检测自身过时并进化的评测。随着模型越来越具有代理能力（agentic），静态评测越来越脆弱。Wang 建议监控元信号：基准分数分布的特征是否在变？评测之间的相关结构是否在漂移？模型是否在发展与你测量轴正交的能力？更具雄心地，构建自进化评测：用模型来探测其他模型，自动生成新测试用例。

评测套件应该是一个与被测量的模型共同进化的生命系统，而不是为去年的前沿模型写的静态清单。

The eval suite should be a living system that co-evolves with the models it measures, not a static checklist written for last year's frontier.

压力测试注记

这篇文章的论证非常优雅，但有几个值得注意的盲区。

第一，"评测是瓶颈"可能是自我实现的预言。 如果所有实验室都把资源投向评测基础设施，那评测当然会变成差异化因素——但这不证明评测是瓶颈，只是证明你投了资源。同样逻辑可以用于数据清洗、对齐研究或任何领域。

第二，"序参量"类比可能存在根本性差异。 物理系统有明确的自由度数量和已知的哈密顿量，LLM 的行为空间是开放且持续变化的。用统计力学为程式化小场景推导序参量是一回事，为 GPT-5 的行为空间做同样的事可能是范畴错误。

第三，利益相关。 Wang 是 Google DeepMind 的研究员，DeepMind 正在大力投资评测基础设施（如 Gemini 的评测报告体系）。一篇"评测是最重要的未解决问题"的文章，客观上也在为自己团队的资源分配背书。这不意味着论点是错的，但意味着我们需要更高标准的反面证据。

第四，沉默的证据。 文章没有讨论一种可能性：也许评测本身的"静默失效"不是一个可以通过更好的评测来解决的问题，而是复杂系统固有的不可预测性。如果某些能力转变在原则上是不可预测的（类似混沌系统），那投入再多资源建评测基础设施也只是安慰剂。

Part 2

Socratic Dialogue

师生对话，逐步深入核心洞察

学生（尾巴）

老师，最近大家都在讨论 eval 的重要性，但我觉得现有的 benchmark 不也在正常工作吗？GPQA、SWE-bench 这些不都挺好的？

老师

它们在当前 regime 里确实工作得不错。但 Wang 的核心洞察是：它们只测量模型现在能做什么，对模型即将变成什么几乎没有任何预测力。想想看，你用什么来判断一个模型会不会突然获得"策略性隐瞒"的能力？

学生（尾巴）

嗯...好像没有专门的 benchmark 测这个。但"涌现能力"这个概念本身不是有争议吗？Schaeffer 那篇论文不是说很多"跳跃"只是度量假象？

老师

非常好的反驳。但 Wang 精妙地转化了这个质疑——他说，如果你连过去的转变是真实的还是假象都分辨不了，那你凭什么觉得能检测到下一次转变？无论质变是真实的还是度量假象，你的评测基础设施都会让你措手不及。问题不在于涌现是否真实，而在于你的测量工具在不告诉你它失效的情况下就失效了。

学生（尾巴）

所以关键是"静默失效"——不是评测报了错但你没看到，而是评测一切正常但其实已经不 relevant 了？

老师

完全正确。这就是为什么 Wang 说 eval 是一切的上游。训练就是优化，优化的目标来自评测。如果你的评测是为错误的 regime 校准的，那训练信号、安全指标、缩放决策——全都是错的，而且你不知道它们是错的。

学生（尾巴）

但 Wang 提到的"序参量"方案靠谱吗？物理系统的相变可以用统计力学处理，LLM 也能吗？

老师

这是最值得质疑的地方。物理系统有明确的自由度和已知的哈密顿量——水变成冰，分子数量没变。但 LLM 的行为空间是开放且持续变化的。Shan 等人在程式化的持续学习场景里推导出了序参量，但那是几千个参数的网络，不是万亿参数的 GPT-5。类比可能存在范畴差异。

学生（尾巴）

那"自进化评测"呢？用模型来评测模型，听起来有点循环论证的味道？

老师

如果你只让同一个模型评测自己，确实是循环。但如果你用不同能力级别的模型互相探测——比如用一个更小的模型来发现更大模型的未知边界，或者用一个专门训练来寻找失败模式的"对抗者"模型——那就有信息增量了。关键在于探测的多样性，而不是单一的自我验证。

学生（尾巴）

我还有一个疑问：Wang 说"评测是瓶颈"，但他自己在 DeepMind，DeepMind 正在大力投资评测基础设施。这不就是给自己团队要资源吗？

老师

很敏锐。这不意味着他的论点是错的——实际上他的论证逻辑很扎实——但它意味着我们需要更高标准的反面证据。而且有一个他没讨论的可能性：也许某些能力转变在原则上是不可预测的，类似混沌系统。如果是这样，投再多资源建评测基础设施，也只是安慰剂。

学生（尾巴）

那你觉得作为从业者，最实际的做法是什么？

老师

关注元信号：你的 benchmark 分数分布形态在变吗？不同评测之间的相关性在漂移吗？模型是否在展现出和你测量轴正交的能力？这些不需要等学术界找到"序参量"，你现在就能做。另外，对你自己的评测体系保持健康的怀疑——它们可能正在静默失效。

Part 3

Personalized Insights

基于你的身份和工作场景，提炼最切合的发现和行动建议

1. QA 思维在这里是超能力

Wang 说评测是瓶颈，这本质上是一个 QA 问题——不是"测试已知边界"而是"发现未知边界"。你作为 QA 工程师的背景，让你对"静默失效"这个概念有本能的敏感度。传统测试关注"已知的已知"和"已知的未知"，但 LLM 评测的核心挑战是"未知的未知"。

建议：在评估任何 AI 产品时，不要只看 benchmark 分数，而是追踪分数分布的形态特征——分布变宽了？出现了双峰？这些元信号比绝对分数更有信息量。

2. 构建 AI 产品时，评测要先于训练

Wang 的核心洞察"评测是一切的上游"直接适用于你的 AI 产品开发。如果你在做 AI Agent，你的评测应该覆盖的不只是"任务完成率"，而是"任务完成的方式是否在你预期的行为空间内"。

建议：为你正在开发的 AI 产品建立一套"行为边界监控"——不只是成功/失败，而是追踪 Agent 的行为路径是否在 drift。这比事后 red-team 有效得多。

3. "自进化评测"是一个可以落地的技术方向

Wang 提到的"用模型来探测其他模型"不是纯学术概念。在实践中，你可以用一个更小更快的模型来持续探测你产品的 AI 组件的边界，自动生成新的测试用例。这本质上是一种自动化 fuzzing 的 AI 版本。

建议：考虑为你的项目搭建一个"对抗者 Agent"——一个专门设计来发现主 Agent 失败模式的轻量模型。这不是安全研究，而是工程实践。

4. 技术自媒体的角度：评测是当前 AI 行业最大的认知盲区

大部分 AI 行业报道聚焦在模型能力、训练成本、商业落地。Wang 这篇文章指向了一个被忽视但至关重要的结构性问题。作为 AI 内容创作者，这是一个有差异性的选题角度。

建议：写一篇面向开发者的"为什么你的 LLM 评测可能在静默失效"——从实践角度讲清楚这个概念，比泛泛的"eval 很重要"有价值得多。