arXiv 2026-01 · CMU + NYU

从熵到认知复杂度:
重新定义 AI 时代的信息

Shannon 信息论和 Kolmogorov 复杂度假设观察者拥有无限算力。但现实中,神经网络是计算有界的观察者。 这篇论文提出了 Epiplexity(认知复杂度),精准度量数据中有多少「可学习的结构」,并以此解释合成数据为何有效、数据排序为何重要、模型为何能学到比生成过程更多的东西。

3 个悖论 经典信息论 vs 机器学习实践的三个矛盾
Epiplexity 新信息度量:计算有界观察者可提取的结构信息量
OOD 泛化 高 Epiplexity 数据 → 更好的分布外迁移能力
数据选择 不依赖下游任务,量化预训练数据的内在价值

Part 1
杂志长文

当信息论遇上深度学习,经典框架开始解释不了现实。一群来自 CMU 和 NYU 的研究者决定重写规则。

一、问题:信息论「翻车」了

2026 年 1 月,Marc Finzi、Andrew Gordon Wilson 等人在 arXiv 上投下一枚深水炸弹。他们指出,Shannon 信息论和 Kolmogorov 复杂度——这两根支撑了信息科学近一个世纪的支柱——在面对现代机器学习时,竟给出了明显错误的结论。

三个「悖论」直击要害:

悖论 1

确定性变换不能创造信息

信息论说:你不能通过对数据做确定性变换来增加信息量。但 AlphaZero 从零开始、只靠规则和自博弈,学到了超人类的棋艺。合成数据在持续提升模型能力。数学家从公理推导新定理。信息从何而来?

悖论 2

信息与数据顺序无关

Shannon 熵和 Kolmogorov 复杂度都声称:先看 X 再看 Y,和先看 Y 再看 X,信息总量不变。但 LLM 从左到右学英文比从右到左学得好得多,密码学也建立在「一个方向难、另一个方向易」的不对称之上。

悖论 3

似然建模只是分布匹配

最大似然被认为只是拟合数据分布——数据生成过程本身是自己的最优模型。但 Conway 生命游戏中,简单的位运算规则涌现出复杂的「滑翔机」等实体,计算有限的观察者能学到生成过程中根本不存在的结构。

经典框架假设观察者拥有无限算力,把数据中的「随机噪声」和「可学习结构」混为一谈。一旦引入计算约束,信息就不再是数据本身的固有属性——它变成了数据相对于观察者的属性

二、核心概念:Epiplexity(认知复杂度)

论文的核心贡献是提出了 Epiplexity(词源:epistemic + complexity,认知复杂度),正式定义为:

定义 8

在计算时间约束 T 下,找到能最优压缩数据 X 的概率模型 P*(即最小化「模型描述长度 + 数据在模型下的编码长度」),则:

  • Epiplexity S_T(X) = |P*|:最优模型的程序长度,度量数据中有多少可学习的结构信息
  • Time-bounded Entropy H_T(X):数据在该模型下仍无法预测的随机信息量

两者之和 = 数据在计算约束 T 下的总信息量。

直观理解:想象一个数据集是一道谜题。Epiplexity 是「解题策略」的复杂度——策略越复杂,说明谜题中隐藏的结构越丰富。而 Time-bounded Entropy 是「即使你找到了最好的策略,仍然无法预测的部分」。

关键洞察:

高 Epiplexity 数据

自然语言(OpenWebText)、棋局数据——模型需要发展出复杂的内部程序(如 induction heads、棋盘表示)来解释这些数据。这些内部结构可复用于全新的下游任务。

低 Epiplexity 数据

CSPRNG 输出(伪随机数)、打乱的像素——尽管总信息量巨大,但几乎全是随机噪声。模型学不到可复用的结构。CIFAR-5M 图片数据 99% 以上的信息是随机的。

三、三个悖论的化解

悖论 1 的化解:计算可以创造信息。 论文证明,确定性变换可以在计算有界的框架下增加 Time-bounded Entropy 和 Epiplexity。关键在于:函数 f 的正向计算可能很短(easy),但逆向推理很长(hard)。比如元胞自动机 Rule 30:规则只有几行代码,但产生的序列对多项式时间的观察者来说几乎完全随机,同时还涌现出可学习的结构(如「滑翔机」)。

AlphaZero 之所以能学到「新信息」,是因为自博弈过程是一个确定性变换,它在计算有界的框架下产生了高 Epiplexity 的数据——模型被迫发展出丰富的棋盘表示和策略程序。

悖论 2 的化解:信息与因子分解顺序有关。 论文给出了反例:在国际象棋中,「棋盘状态 → 下一步走法」的顺序 vs「走法 → 棋盘状态」的逆序,Epiplexity 截然不同。逆序(先看到走法再推断棋盘)迫使模型学到更丰富的棋盘表示,这些表示在分布外任务(如局面评估)上表现显著更好。

悖论 3 的化解:似然建模远不止分布匹配。 论文通过「归纳」和「涌现」两种机制证明:计算有限的观察者可以学到比数据生成过程更复杂的程序。在归纳任务中,生成过程简单地掩码掉部分信息,但预测模型必须学会「反向推理」——这个推理程序比生成过程本身更复杂。在涌现中(如生命游戏),简单的局部规则产生了复杂的全局实体,模型通过识别这些实体来压缩数据,程序复杂度远超原始规则。

四、实战价值:从理论到数据选择

Epiplexity 不只是理论玩具。论文展示了它在预训练数据选择中的实际威力:

数据模态Epiplexity(结构信息)Time-bounded Entropy(随机信息)OOD 迁移能力
自然语言 (OpenWebText)最高中等最强(机器人控制、定理证明、时序预测)
棋局 (Lichess)中等中等中等
图像 (CIFAR-5M)最低(<1% 结构)最高(>99% 随机)最弱

这解释了为什么语言预训练能迁移到机器人控制、定理证明等看似无关的领域,而图像预训练却不行——语言数据的 Epiplexity 远高于图像数据。

论文还验证了 ADO(Adaptive Data Optimization) 算法:通过动态调整训练数据分布,优先选择损失下降更快的数据子集,实际上就是在最大化 Epiplexity 的近似值。ADO 策略训练出的模型在 7 个下游任务和 2 个 OOD 数据集上都优于均匀采样。

「OOD 泛化的根本不在于你在分布内预测得多好,而在于你的模型内化了多少可复用的结构。两个在训练集上达到相同 loss 的模型,在分布外任务上可能天差地别——因为 loss 只衡量了残余不可预测性(time-bounded entropy),而不是模型学到了多少结构(epiplexity)。」

— 论文 Section 6

五、测量方法

论文提供了两种实用的 Epiplexity 估计方法:

Prequential Coding

启发式近似

训练 loss 曲线下方面积(减去最终 loss)。直觉:如果模型持续快速降低 loss,说明数据中有大量可学习的结构。简单易算,但分离结构和噪声时依赖启发式论证。

Requential Coding

严格估计

用 teacher-student 框架:teacher 模型在完整数据上训练,student 模型逐步从 teacher 的输出分布中学习。累积 KL 散度度量 student 从 teacher 学到了多少结构。理论上更严格,但计算成本更高。

好消息是:两种方法在不同数据集上给出了一致的 Epiplexity 排序。

Part 2
苏格拉底对话

老师和尾巴(学生)从 AlphaZero 的谜题出发,一步步揭开信息论的盲区,最终发现 Epiplexity 如何重新定义「数据的内在价值」。

尾巴(学生)

老师,AlphaZero 一直让我困惑。它没有用任何人类棋谱,只从国际象棋的规则和自博弈开始训练。规则几行代码就能写完,但模型参数巨大、下棋超人类。信息论说确定性变换不能创造信息,那 AlphaZero 的「知识」从哪来?

老师

好问题。你说得对,按 Shannon 熵或 Kolmogorov 复杂度,AlphaZero 的训练过程是确定性的,信息量确实没增加。但这里藏着一个隐含假设——你默认观察者有无限算力。

尾巴(学生)

无限算力?神经网络显然不是无限的啊。

老师

正是。经典信息论假设观察者能执行任意计算——比如逆向运行伪随机数生成器的种子。但现实中任何物理观察者都有计算上限。这篇论文的核心洞察就是:当你承认计算有界,信息就不再是数据的固有属性,而是数据相对于观察者的属性

尾巴(学生)

所以 AlphaZero 的「知识」不是因为规则复杂,而是因为自博弈过程产生的棋局对于计算有限的观察者(神经网络)来说,包含了大量可学习的结构?

老师

完全正确。论文把这种「计算有界观察者可提取的结构信息」定义为 Epiplexity。回到 AlphaZero:规则简单 → 自博弈产生海量棋局 → 棋局对神经网络来说有高 Epiplexity → 模型被迫内化复杂的棋盘表示和策略 → 这些结构可复用于新任务。这就是为什么确定性变换能「创造」信息。

尾巴(学生)

那 Epiplexity 和我们平时说的「loss」有什么关系?训练不就是在降 loss 吗?

老师

这是个关键区分。Loss 衡量的是「还有多少信息是模型预测不了的」——对应论文中的 Time-bounded Entropy(随机信息)。而 Epiplexity 衡量的是「模型为了达到这个 loss,学到了多复杂的内部程序」。两个模型可以有相同的最终 loss,但 Epiplexity 天差地别。高 Epiplexity 的模型学到了更多可复用的结构,在分布外任务上会更强。

尾巴(学生)

所以这解释了为什么语言预训练迁移能力强,图像预训练迁移能力弱?

老师

一针见血。论文实测:OpenWebText 的 Epiplexity 远高于 CIFAR-5M。图像数据中 99% 以上是随机信息(每个像素的精确值几乎不可预测),结构信息不到 1%。而语言数据虽然也有随机性,但语法结构、语义关系、逻辑推理链都是可学习的结构——这些结构(如 induction heads)可以被复用到机器人控制、定理证明等完全不相关的任务上。

尾巴(学生)

这对我做数据选择有什么指导?比如我训练 LLM 时该怎么选预训练数据?

老师

论文给出的答案是:选择 Epiplexity 高的数据。不需要知道下游任务是什么——高 Epiplexity 意味着数据包含更多可学习的结构,而这些结构在训练中被编码进模型权重,成为潜在的迁移资本。实际上,ADO 算法(动态优先选择 loss 下降更快的数据)就是在无意中最大化 Epiplexity,实验证明它在 OOD 泛化上确实更好。

尾巴(学生)

最后一个问题:合成数据呢?信息论说合成数据不会比原始数据更有价值(数据处理不等式),但实际经验告诉我们合成数据很有用。

老师

这恰好是 Epiplexity 最闪光的地方。数据处理不等式在 Shannon 框架下是对的,但它假设观察者无限。在计算有界框架下,确定性变换可以增加 Epiplexity——比如通过模拟元胞自动机或物理系统,从简单规则中涌现出复杂结构。合成数据之所以有效,不是因为它比原始数据有更多 Shannon 信息,而是因为它为计算有限的模型提供了更多可学习的结构。这就是论文标题的深意:从 Entropy(经典信息)到 Epiplexity(认知复杂度)。

尾巴(学生)

我还有个延伸想法:如果 Epiplexity 是观察者依赖的,那随着模型算力增长,同一份数据的 Epiplexity 会不会变化?比如今天算力不够学不到的结构,明天更大的模型就能学到了?

老师

你的直觉完全正确。论文明确讨论了这一点:随着计算预算 T 增加,Time-bounded Entropy 下降(以前看起来随机的东西变得可预测),而 Epiplexity 也会变化。极端情况下,如果算力无穷大,你就能直接模拟物理定律,那所有自然数据的 Epiplexity 都趋于零——因为最简单的「程序」就是直接模拟底层物理。但论文也指出,这需要的算力远远超出任何物理上可实现的观察者。所以对于所有实际目的,自然数据都有正的 Epiplexity。

Part 3
个性化洞察

基于尾巴的身份——QA 工程师、全栈开发者、AI Agent 探索者——提炼最切合的发现和行动建议。

洞察 1:数据质量有了可量化的度量

Epiplexity 是数据选择的「北辰之星」

为什么跟你有关:作为 AI 应用开发者,你经常面临数据选择的困境——训练/微调用什么数据?现在有了一个理论框架:不依赖下游任务,直接度量数据中有多少「可学习结构」。用 loss 曲线下方面积就能做粗略估计。

你可以怎么做:在微调 LLM 或训练 embedding 模型时,对比不同数据源的 Epiplexity(用 prequential coding 近似),优先选择 Epiplexity 高的数据。这比直觉式的「高质量」「多样化」标签更可靠。

洞察 2:合成数据的理论基础

为什么合成数据有效,终于有了理论解释

为什么跟你有关:Phi-4、DeepSeek 等模型大量使用合成数据。传统信息论说合成数据不可能比原始数据更有价值,但 Epiplexity 证明了:确定性变换(包括 LLM 生成)可以在计算有界框架下产生新的可学习结构。

你可以怎么做:在设计 AI Agent 的训练数据时,不必局限于「真实数据」。通过精心设计的生成过程(如规则模拟、推理链生成、对抗性构造),可以创造出比原始数据 Epiplexity 更高的合成数据。

洞察 3:为什么语言预训练 > 图像预训练

模态选择的结构信息解释

为什么跟你有关:作为 AI 产品开发者,你需要在多模态方案中做选择。论文给出了明确答案:语言数据的 Epiplexity 远高于图像数据(CIFAR-5M 的 99% 信息是随机噪声)。这解释了为什么 GPT/Vicuna 等语言模型预训练后能迁移到机器人控制、代码生成等任务,而图像预训练做不到。

你可以怎么做:构建多模态 AI 产品时,优先考虑以语言为核心的架构(如 VLM 的文本 backbone),图像/视频作为辅助输入。文本的迁移能力是图像的数倍。

洞察 4:数据排序影响学习效果

「数据的呈现顺序」是一种被低估的特征工程

为什么跟你有关:论文证明,同样的数据,不同的因子化顺序会产生不同的 Epiplexity。国际象棋实验中,逆序(先看到走法再推断棋盘)迫使模型学到更丰富的表示,OOD 性能显著提升。

你可以怎么做:在训练 AI Agent 时,不只是「喂什么数据」,还要考虑「以什么顺序/格式呈现」。比如代码生成任务,先展示测试用例再展示实现,可能比传统顺序迫使模型学到更丰富的程序理解。

洞察 5:QA 视角的启发

测试数据集本身也需要「Epiplexity 审计」

为什么跟你有关:作为 QA 工程师,评估模型质量时用的 benchmark 数据集质量至关重要。低 Epiplexity 的测试集(高度重复、结构简单)会让模型看起来比实际更强。

你可以怎么做:在设计评估数据集时,用 Epiplexity 作为数据质量的参考指标。高 Epiplexity 的测试集意味着更丰富的结构、更多样的边界情况,能更真实地反映模型的泛化能力。

Epiplexity 的深层启示:信息的价值不在于「有多少比特」,而在于「有多少比特是计算有限的智能体能学会并复用的」。这对 AI 产品设计者来说,是一个从「数据量崇拜」到「结构密度崇拜」的范式转换。