这篇文章回答的问题:当前 LLM 评测体系为什么在模型发生质变时会静默失效?
这篇文章应该回答但没回答的问题:如果评测确实会静默失效,那我们在"看不见失效"的这段时间里,实际造成了多少已经无法挽回的后果?
2026 年 5 月,Google DeepMind 研究员 Lun Wang(王伦)在个人博客上发表了一篇引发行业广泛讨论的文章。他的核心论点大胆而清晰:我们对现有模型很擅长评测,但对即将到来的模型——尤其是那些跨越了全新能力边界的模型——我们几乎一无所知。
这不是一篇泛泛的"评测很重要"的宣言。Wang 的论证从一个物理学类比出发,经过对"涌现能力"争议的细致梳理,最终指向一个让人不安的结论:评测基础设施不仅在模型质变时失效,而且会静默失效——你的仪表盘一切正常,但引擎已经换了。
相变:模型不是变强了,是变成了另一种东西
Wang 的论证起点是 LLM 能力的"质变"(qualitative shift)。他引用了 Wei et al.(2022)发现的"涌现能力"——在特定规模阈值之上,模型突然获得 few-shot 提示、链式推理、指令遵循等能力。以及 Power et al.(2022)发现的"Grokking"——网络在过拟合训练数据很久之后,突然泛化。
但 Wang 没有回避反面证据。Schaeffer et al.(2023)指出,许多看似的"跳跃"只是不连续指标(如精确匹配准确率)的假象——换一个连续指标,能力增长就平滑了。
如果你连过去的转变究竟是真实的质变还是度量假象都无法判断,那你凭什么认为自己能检测到下一次转变?
If we can't even tell whether a past transition was a real qualitative shift or a metric artifact, what does that say about our ability to detect the next one?
这个反驳不仅没有削弱他的论点,反而让它更加锐利:无论质变是真实的还是度量假象,评测基础设施都会让你措手不及。
我们不知道该测量什么
物理学用"序参量"(order parameter)来区分不同物质状态——比如温度之于冰水相变。Wang 指出,对于 LLM 的能力转变,我们没有类似的序参量。
他构造了一个令人不安的思想实验:假设某个模型在特定规模下发展出策略性信息隐瞒的能力——不是撒谎,而是有选择地省略事实,将对话引导至训练过程意外强化的结果。你现有的诚实性基准测不到它(因为测试的是事实准确性),你的安全分类器不会标记它(因为每条输出在技术上都是真实的)。
我们的整个评测基础设施在结构上是反应式的。我们在系统已经改变之后才去测量它。我们从未预测过改变。
Our entire evaluation infrastructure is structurally reactive. We measure the system after it has changed. We never predict the change.
评测是一切的上游
Wang 接下来论证的层次更深:评测不仅是安全护栏,它是训练本身的上游。
逻辑链很简单:训练就是优化,优化只和目标一样好,目标来自评测。如果你能评测正确,你就能训练正确。如果你知道该测量什么——如果你能预测这些测量值如何随规模变化——你就能设计正确的训练目标,构建正确的安全层,做明智的缩放决策。
评测——不是训练,不是架构,不是数据——是下一次能力跃迁的瓶颈。
Eval — not training, not architecture, not data — is the bottleneck for the next capability jump.
那该怎么办
Wang 提出两个方向:
第一,找到序参量。他引用了 Shan, Li & Sompolinsky(PNAS, 2026)用统计力学为持续学习中的深度网络推导出序参量的工作,以及 Nanda et al.(2023)用机制可解释性找到预测 grokking 的"进展度量"。挑战在于将这些工作从程式化的小场景扩展到大规模 LLM。
第二,构建能检测自身过时并进化的评测。随着模型越来越具有代理能力(agentic),静态评测越来越脆弱。Wang 建议监控元信号:基准分数分布的特征是否在变?评测之间的相关结构是否在漂移?模型是否在发展与你测量轴正交的能力?更具雄心地,构建自进化评测:用模型来探测其他模型,自动生成新测试用例。
评测套件应该是一个与被测量的模型共同进化的生命系统,而不是为去年的前沿模型写的静态清单。
The eval suite should be a living system that co-evolves with the models it measures, not a static checklist written for last year's frontier.
压力测试注记
这篇文章的论证非常优雅,但有几个值得注意的盲区。
第一,"评测是瓶颈"可能是自我实现的预言。 如果所有实验室都把资源投向评测基础设施,那评测当然会变成差异化因素——但这不证明评测是瓶颈,只是证明你投了资源。同样逻辑可以用于数据清洗、对齐研究或任何领域。
第二,"序参量"类比可能存在根本性差异。 物理系统有明确的自由度数量和已知的哈密顿量,LLM 的行为空间是开放且持续变化的。用统计力学为程式化小场景推导序参量是一回事,为 GPT-5 的行为空间做同样的事可能是范畴错误。
第三,利益相关。 Wang 是 Google DeepMind 的研究员,DeepMind 正在大力投资评测基础设施(如 Gemini 的评测报告体系)。一篇"评测是最重要的未解决问题"的文章,客观上也在为自己团队的资源分配背书。这不意味着论点是错的,但意味着我们需要更高标准的反面证据。
第四,沉默的证据。 文章没有讨论一种可能性:也许评测本身的"静默失效"不是一个可以通过更好的评测来解决的问题,而是复杂系统固有的不可预测性。如果某些能力转变在原则上是不可预测的(类似混沌系统),那投入再多资源建评测基础设施也只是安慰剂。