arXiv 2026-01 · CMU + NYU

从熵到认知复杂度：
重新定义 AI 时代的信息

Shannon 信息论和 Kolmogorov 复杂度假设观察者拥有无限算力。但现实中，神经网络是计算有界的观察者。这篇论文提出了 Epiplexity（认知复杂度），精准度量数据中有多少「可学习的结构」，并以此解释合成数据为何有效、数据排序为何重要、模型为何能学到比生成过程更多的东西。

3 个悖论 经典信息论 vs 机器学习实践的三个矛盾

Epiplexity 新信息度量：计算有界观察者可提取的结构信息量

OOD 泛化 高 Epiplexity 数据 → 更好的分布外迁移能力

数据选择 不依赖下游任务，量化预训练数据的内在价值

Part 1
杂志长文

当信息论遇上深度学习，经典框架开始解释不了现实。一群来自 CMU 和 NYU 的研究者决定重写规则。

一、问题：信息论「翻车」了

2026 年 1 月，Marc Finzi、Andrew Gordon Wilson 等人在 arXiv 上投下一枚深水炸弹。他们指出，Shannon 信息论和 Kolmogorov 复杂度——这两根支撑了信息科学近一个世纪的支柱——在面对现代机器学习时，竟给出了明显错误的结论。

三个「悖论」直击要害：

悖论 1

确定性变换不能创造信息

信息论说：你不能通过对数据做确定性变换来增加信息量。但 AlphaZero 从零开始、只靠规则和自博弈，学到了超人类的棋艺。合成数据在持续提升模型能力。数学家从公理推导新定理。信息从何而来？

悖论 2

信息与数据顺序无关

Shannon 熵和 Kolmogorov 复杂度都声称：先看 X 再看 Y，和先看 Y 再看 X，信息总量不变。但 LLM 从左到右学英文比从右到左学得好得多，密码学也建立在「一个方向难、另一个方向易」的不对称之上。

悖论 3

似然建模只是分布匹配

最大似然被认为只是拟合数据分布——数据生成过程本身是自己的最优模型。但 Conway 生命游戏中，简单的位运算规则涌现出复杂的「滑翔机」等实体，计算有限的观察者能学到生成过程中根本不存在的结构。

经典框架假设观察者拥有无限算力，把数据中的「随机噪声」和「可学习结构」混为一谈。一旦引入计算约束，信息就不再是数据本身的固有属性——它变成了数据相对于观察者的属性。

二、核心概念：Epiplexity（认知复杂度）

论文的核心贡献是提出了 Epiplexity（词源：epistemic + complexity，认知复杂度），正式定义为：

定义 8

在计算时间约束 T 下，找到能最优压缩数据 X 的概率模型 P*（即最小化「模型描述长度 + 数据在模型下的编码长度」），则：

Epiplexity S_T(X) = |P*|：最优模型的程序长度，度量数据中有多少可学习的结构信息
Time-bounded Entropy H_T(X)：数据在该模型下仍无法预测的随机信息量

两者之和 = 数据在计算约束 T 下的总信息量。

直观理解：想象一个数据集是一道谜题。Epiplexity 是「解题策略」的复杂度——策略越复杂，说明谜题中隐藏的结构越丰富。而 Time-bounded Entropy 是「即使你找到了最好的策略，仍然无法预测的部分」。

关键洞察：

高 Epiplexity 数据

自然语言（OpenWebText）、棋局数据——模型需要发展出复杂的内部程序（如 induction heads、棋盘表示）来解释这些数据。这些内部结构可复用于全新的下游任务。

低 Epiplexity 数据

CSPRNG 输出（伪随机数）、打乱的像素——尽管总信息量巨大，但几乎全是随机噪声。模型学不到可复用的结构。CIFAR-5M 图片数据 99% 以上的信息是随机的。

三、三个悖论的化解

悖论 1 的化解：计算可以创造信息。 论文证明，确定性变换可以在计算有界的框架下增加 Time-bounded Entropy 和 Epiplexity。关键在于：函数 f 的正向计算可能很短（easy），但逆向推理很长（hard）。比如元胞自动机 Rule 30：规则只有几行代码，但产生的序列对多项式时间的观察者来说几乎完全随机，同时还涌现出可学习的结构（如「滑翔机」）。

AlphaZero 之所以能学到「新信息」，是因为自博弈过程是一个确定性变换，它在计算有界的框架下产生了高 Epiplexity 的数据——模型被迫发展出丰富的棋盘表示和策略程序。

悖论 2 的化解：信息与因子分解顺序有关。 论文给出了反例：在国际象棋中，「棋盘状态 → 下一步走法」的顺序 vs「走法 → 棋盘状态」的逆序，Epiplexity 截然不同。逆序（先看到走法再推断棋盘）迫使模型学到更丰富的棋盘表示，这些表示在分布外任务（如局面评估）上表现显著更好。

悖论 3 的化解：似然建模远不止分布匹配。 论文通过「归纳」和「涌现」两种机制证明：计算有限的观察者可以学到比数据生成过程更复杂的程序。在归纳任务中，生成过程简单地掩码掉部分信息，但预测模型必须学会「反向推理」——这个推理程序比生成过程本身更复杂。在涌现中（如生命游戏），简单的局部规则产生了复杂的全局实体，模型通过识别这些实体来压缩数据，程序复杂度远超原始规则。

四、实战价值：从理论到数据选择

Epiplexity 不只是理论玩具。论文展示了它在预训练数据选择中的实际威力：

数据模态	Epiplexity（结构信息）	Time-bounded Entropy（随机信息）	OOD 迁移能力
自然语言 (OpenWebText)	最高	中等	最强（机器人控制、定理证明、时序预测）
棋局 (Lichess)	中等	中等	中等
图像 (CIFAR-5M)	最低（<1% 结构）	最高（>99% 随机）	最弱

这解释了为什么语言预训练能迁移到机器人控制、定理证明等看似无关的领域，而图像预训练却不行——语言数据的 Epiplexity 远高于图像数据。

论文还验证了 ADO（Adaptive Data Optimization） 算法：通过动态调整训练数据分布，优先选择损失下降更快的数据子集，实际上就是在最大化 Epiplexity 的近似值。ADO 策略训练出的模型在 7 个下游任务和 2 个 OOD 数据集上都优于均匀采样。

「OOD 泛化的根本不在于你在分布内预测得多好，而在于你的模型内化了多少可复用的结构。两个在训练集上达到相同 loss 的模型，在分布外任务上可能天差地别——因为 loss 只衡量了残余不可预测性（time-bounded entropy），而不是模型学到了多少结构（epiplexity）。」

— 论文 Section 6

五、测量方法

论文提供了两种实用的 Epiplexity 估计方法：

Prequential Coding

启发式近似

训练 loss 曲线下方面积（减去最终 loss）。直觉：如果模型持续快速降低 loss，说明数据中有大量可学习的结构。简单易算，但分离结构和噪声时依赖启发式论证。

Requential Coding

严格估计

用 teacher-student 框架：teacher 模型在完整数据上训练，student 模型逐步从 teacher 的输出分布中学习。累积 KL 散度度量 student 从 teacher 学到了多少结构。理论上更严格，但计算成本更高。

好消息是：两种方法在不同数据集上给出了一致的 Epiplexity 排序。

Part 2
苏格拉底对话

老师和尾巴（学生）从 AlphaZero 的谜题出发，一步步揭开信息论的盲区，最终发现 Epiplexity 如何重新定义「数据的内在价值」。

尾巴（学生）

老师，AlphaZero 一直让我困惑。它没有用任何人类棋谱，只从国际象棋的规则和自博弈开始训练。规则几行代码就能写完，但模型参数巨大、下棋超人类。信息论说确定性变换不能创造信息，那 AlphaZero 的「知识」从哪来？

老师

好问题。你说得对，按 Shannon 熵或 Kolmogorov 复杂度，AlphaZero 的训练过程是确定性的，信息量确实没增加。但这里藏着一个隐含假设——你默认观察者有无限算力。

尾巴（学生）

无限算力？神经网络显然不是无限的啊。

老师

正是。经典信息论假设观察者能执行任意计算——比如逆向运行伪随机数生成器的种子。但现实中任何物理观察者都有计算上限。这篇论文的核心洞察就是：当你承认计算有界，信息就不再是数据的固有属性，而是数据相对于观察者的属性。

尾巴（学生）

所以 AlphaZero 的「知识」不是因为规则复杂，而是因为自博弈过程产生的棋局对于计算有限的观察者（神经网络）来说，包含了大量可学习的结构？

老师

完全正确。论文把这种「计算有界观察者可提取的结构信息」定义为 Epiplexity。回到 AlphaZero：规则简单 → 自博弈产生海量棋局 → 棋局对神经网络来说有高 Epiplexity → 模型被迫内化复杂的棋盘表示和策略 → 这些结构可复用于新任务。这就是为什么确定性变换能「创造」信息。

尾巴（学生）

那 Epiplexity 和我们平时说的「loss」有什么关系？训练不就是在降 loss 吗？

老师

这是个关键区分。Loss 衡量的是「还有多少信息是模型预测不了的」——对应论文中的 Time-bounded Entropy（随机信息）。而 Epiplexity 衡量的是「模型为了达到这个 loss，学到了多复杂的内部程序」。两个模型可以有相同的最终 loss，但 Epiplexity 天差地别。高 Epiplexity 的模型学到了更多可复用的结构，在分布外任务上会更强。

尾巴（学生）

所以这解释了为什么语言预训练迁移能力强，图像预训练迁移能力弱？

老师

一针见血。论文实测：OpenWebText 的 Epiplexity 远高于 CIFAR-5M。图像数据中 99% 以上是随机信息（每个像素的精确值几乎不可预测），结构信息不到 1%。而语言数据虽然也有随机性，但语法结构、语义关系、逻辑推理链都是可学习的结构——这些结构（如 induction heads）可以被复用到机器人控制、定理证明等完全不相关的任务上。

尾巴（学生）

这对我做数据选择有什么指导？比如我训练 LLM 时该怎么选预训练数据？

老师

论文给出的答案是：选择 Epiplexity 高的数据。不需要知道下游任务是什么——高 Epiplexity 意味着数据包含更多可学习的结构，而这些结构在训练中被编码进模型权重，成为潜在的迁移资本。实际上，ADO 算法（动态优先选择 loss 下降更快的数据）就是在无意中最大化 Epiplexity，实验证明它在 OOD 泛化上确实更好。

尾巴（学生）

最后一个问题：合成数据呢？信息论说合成数据不会比原始数据更有价值（数据处理不等式），但实际经验告诉我们合成数据很有用。

老师

这恰好是 Epiplexity 最闪光的地方。数据处理不等式在 Shannon 框架下是对的，但它假设观察者无限。在计算有界框架下，确定性变换可以增加 Epiplexity——比如通过模拟元胞自动机或物理系统，从简单规则中涌现出复杂结构。合成数据之所以有效，不是因为它比原始数据有更多 Shannon 信息，而是因为它为计算有限的模型提供了更多可学习的结构。这就是论文标题的深意：从 Entropy（经典信息）到 Epiplexity（认知复杂度）。

尾巴（学生）

我还有个延伸想法：如果 Epiplexity 是观察者依赖的，那随着模型算力增长，同一份数据的 Epiplexity 会不会变化？比如今天算力不够学不到的结构，明天更大的模型就能学到了？

老师

你的直觉完全正确。论文明确讨论了这一点：随着计算预算 T 增加，Time-bounded Entropy 下降（以前看起来随机的东西变得可预测），而 Epiplexity 也会变化。极端情况下，如果算力无穷大，你就能直接模拟物理定律，那所有自然数据的 Epiplexity 都趋于零——因为最简单的「程序」就是直接模拟底层物理。但论文也指出，这需要的算力远远超出任何物理上可实现的观察者。所以对于所有实际目的，自然数据都有正的 Epiplexity。

Part 3
个性化洞察

基于尾巴的身份——QA 工程师、全栈开发者、AI Agent 探索者——提炼最切合的发现和行动建议。

洞察 1：数据质量有了可量化的度量

Epiplexity 是数据选择的「北辰之星」

为什么跟你有关：作为 AI 应用开发者，你经常面临数据选择的困境——训练/微调用什么数据？现在有了一个理论框架：不依赖下游任务，直接度量数据中有多少「可学习结构」。用 loss 曲线下方面积就能做粗略估计。

你可以怎么做：在微调 LLM 或训练 embedding 模型时，对比不同数据源的 Epiplexity（用 prequential coding 近似），优先选择 Epiplexity 高的数据。这比直觉式的「高质量」「多样化」标签更可靠。

洞察 2：合成数据的理论基础

为什么合成数据有效，终于有了理论解释

为什么跟你有关：Phi-4、DeepSeek 等模型大量使用合成数据。传统信息论说合成数据不可能比原始数据更有价值，但 Epiplexity 证明了：确定性变换（包括 LLM 生成）可以在计算有界框架下产生新的可学习结构。

你可以怎么做：在设计 AI Agent 的训练数据时，不必局限于「真实数据」。通过精心设计的生成过程（如规则模拟、推理链生成、对抗性构造），可以创造出比原始数据 Epiplexity 更高的合成数据。

洞察 3：为什么语言预训练 > 图像预训练

模态选择的结构信息解释

为什么跟你有关：作为 AI 产品开发者，你需要在多模态方案中做选择。论文给出了明确答案：语言数据的 Epiplexity 远高于图像数据（CIFAR-5M 的 99% 信息是随机噪声）。这解释了为什么 GPT/Vicuna 等语言模型预训练后能迁移到机器人控制、代码生成等任务，而图像预训练做不到。

你可以怎么做：构建多模态 AI 产品时，优先考虑以语言为核心的架构（如 VLM 的文本 backbone），图像/视频作为辅助输入。文本的迁移能力是图像的数倍。

洞察 4：数据排序影响学习效果

「数据的呈现顺序」是一种被低估的特征工程

为什么跟你有关：论文证明，同样的数据，不同的因子化顺序会产生不同的 Epiplexity。国际象棋实验中，逆序（先看到走法再推断棋盘）迫使模型学到更丰富的表示，OOD 性能显著提升。

你可以怎么做：在训练 AI Agent 时，不只是「喂什么数据」，还要考虑「以什么顺序/格式呈现」。比如代码生成任务，先展示测试用例再展示实现，可能比传统顺序迫使模型学到更丰富的程序理解。

洞察 5：QA 视角的启发

测试数据集本身也需要「Epiplexity 审计」

为什么跟你有关：作为 QA 工程师，评估模型质量时用的 benchmark 数据集质量至关重要。低 Epiplexity 的测试集（高度重复、结构简单）会让模型看起来比实际更强。

你可以怎么做：在设计评估数据集时，用 Epiplexity 作为数据质量的参考指标。高 Epiplexity 的测试集意味着更丰富的结构、更多样的边界情况，能更真实地反映模型的泛化能力。

Epiplexity 的深层启示：信息的价值不在于「有多少比特」，而在于「有多少比特是计算有限的智能体能学会并复用的」。这对 AI 产品设计者来说，是一个从「数据量崇拜」到「结构密度崇拜」的范式转换。

从熵到认知复杂度：重新定义 AI 时代的信息

Part 1杂志长文

一、问题：信息论「翻车」了

确定性变换不能创造信息

信息与数据顺序无关

似然建模只是分布匹配

二、核心概念：Epiplexity（认知复杂度）

三、三个悖论的化解

四、实战价值：从理论到数据选择

五、测量方法

启发式近似

严格估计

Part 2苏格拉底对话

Part 3个性化洞察

Epiplexity 是数据选择的「北辰之星」

为什么合成数据有效，终于有了理论解释

模态选择的结构信息解释

「数据的呈现顺序」是一种被低估的特征工程

测试数据集本身也需要「Epiplexity 审计」

从熵到认知复杂度：
重新定义 AI 时代的信息

Part 1
杂志长文

Part 2
苏格拉底对话

Part 3
个性化洞察