X/Twitter 翻译解读

$1.3M Token 账单背后的真相

steipete 的"代币无关"实验——100+ Codex 并行、6 人团队、月烧 130 万美元。当 token 不再重要，软件开发会变成什么样？

$1.3M 月度 AI Token 支出

100+ 并行 Codex 实例

6 人 团队规模

-70% 关掉快速模式可省

Magazine Article

2026 年 5 月，一条推文引爆了技术圈

2026 年 5 月，Peter Steinberger（@steipete），OpenClaw 的创造者、OpenAI 的新员工，晒出了他一个月的 AI token 账单——130 万美元。

人们的反应几乎是条件反射式的：震惊、质疑、嘲讽。"极度精简"这个描述成了最大的靶子——一个 6 人团队花 180 万美元在 AI token 上，这叫精简？

但 Peter 的核心论点不在数字本身。他在问一个更根本的问题：

如果 token 不再重要，未来的软件开发会是什么样？

How would we build software in the future if tokens don't matter?

这不是一个成本优化问题，而是一个哲学实验。Peter 在做的事情是：把 token 消耗视为零，然后看软件开发的最佳实践会怎么变。

答案是：100+ 个 Codex 实例并行运行，每一个 PR 都被审查，每一个 commit 都做安全检查，每一个旧 issue 都会被重新扫描。这不再是"人写代码"的模式，而是"AI 狂奔，人类审查"。

这个模式的效率是惊人的。但问题也同样惊人。

硬币的另一面

就在 Peter 发推的同一周，Mitchell Hashimoto（HashiCorp 联合创始人）提出了"AI Psychosis"的概念——有些公司已经陷入 AI 迷乱，连理性对话都变得不可能。

你可以用自动化建造一台非常健康的灾难机器。Bug 报告可以下降，而潜在风险在爆炸。

You can build a very healthy disaster machine. Bug reports can go down while latent risk explodes.

这两条推文形成了完美的对照：Peter 代表了 AI 原生开发的极致乐观主义，Mitchell 代表了基础设施老兵的深沉忧虑。

而 OpenClaw 本身正经历着复杂的现实——中国的监管审查、Anthropic 的 OAuth 撤回、甚至有人利用 CLAWD 名义做加密货币骗局。一个"如果 token 不重要"的实验，正在与现实世界发生碰撞。

6 个人如何驾驭 100 个 AI Agent

评论区最有价值的问题来自 @edzitron："你们有多少人？" 答案：6 个。

6 个人审查 100+ 个 AI Agent 的输出。这意味着每个人的注意力被极度分散。Peter 说他们"审查每一个 PR"——但当你每天有几十个 AI 生成的 PR 需要审查时，审查本身会变成什么？是深入理解代码变更，还是快速扫一眼确认"看起来没问题"？

这正是 Mitchell 警告的"语义理解在下降"的具体场景。

Socratic Dialogue

师生对话：烧钱还是革命？

学生：6 个人花 130 万美元在 AI token 上，一个月。这到底是在写软件还是在烧钱？

老师：先不急着判断。Peter 的核心论点是什么？

学生："如果 token 不重要，软件开发会怎样？"所以他是在做一个思维实验，不是在炫耀花钱。

老师：对。那结果呢？100 个 Codex 并行运行的结果是什么？

学生：每个 PR 都被审查，每个旧 issue 都会被重新扫描，每个 commit 都做安全检查。听起来效率很高？

老师：6 个人审查 100 个 AI 的输出。当你每天要审查几十个 AI 生成的 PR 时，你的"审查"质量会怎样变化？

学生：可能从"深入理解每一行变更"变成"扫一眼确认没明显问题"。

老师：这就对了。注意 Mitchell Hashimoto 同一周发出的警告——"测试覆盖率可以上升，而语义理解在下降"。你觉得巧合吗？

学生：不是巧合。Peter 的模式正是 Mitchell 所担心的。但反过来说，100 个 Codex 确实能发现人类审查者会遗漏的东西吧？

老师：是的，这是硬币的另一面。AI Agent 在重复性、规模化检查上确实优于人类。但 Peter 说的"审查每一个 PR"和传统意义上的代码审查不是一回事了。

学生：那 token 成本会继续下降这个假设靠谱吗？

老师：这是整个论点的根基。如果 token 成本真的趋近于零，Peter 的模式会成为主流。但历史告诉我们，计算成本下降时，使用量会以更快的速度增长——Jevons 悖论。Token 可能越来越便宜，但你用的也越来越多。

学生：所以结论是什么？

老师：没有简单结论。Peter 的实验有价值，但它验证的是一个极端假设。真正的未来可能在中间地带——AI Agent 做规模化检查，人类做架构决策和语义审查，token 成本是考虑因素但不是唯一因素。

精选评论

社区怎么看？

@BeCachet 100 likes

用 180 万美元的 token 叫"极度精简"？

"extremely lean" w/ $1.8m in tokens

@tylerwillis 366 likes

Token 成本会持续下降，这会变得人人可及。

Token costs will keep dropping, this will become accessible to everyone.

@edzitron → @steipete 241 likes

你们有多少人？ → 大约 6 个。

How many people? → Around 6.

@RhysSullivan 430 likes

每次看到你的工作流，我才发现自己有多少要学的。

Every time I see your workflow I realize how much I have to learn.

@PeterBell → @steipete 15 likes

很多东西可以用确定性工具做，不需要 AI。

Much can be done deterministically without AI.

@steipete 回复 24 likes

我们也用很多确定性工具，没列全。

We do a lot deterministically too, didn't list everything.

三个最致命的假设

如果任何一个不成立，论点就会崩塌

假设 1

Token 成本会持续下降

整个论点的根基。如果 token 价格因算力短缺、能源成本或模型复杂化而停滞甚至上涨，"build as if tokens don't matter"就是一场豪赌。

假设 2

6 人能有效审查 100+ AI Agent

注意力瓶颈问题。当审查变成流水线作业，"审查"的定义已经变了——从理解代码变成确认格式。

支撑论点的证据

Token 成本确实在下降 — GPT-4 级别模型的每 token 成本一年内降了 10 倍
AI 安全扫描确实有效 — Codex 在漏洞检测上的召回率高于人工审查
OpenClaw 在运行 — 不是理论，是已经在工作的系统

反面证据

Jevons 悖论 — 成本下降导致用量暴涨，总支出可能不降反升
AI Psychosis 同周爆发 — Mitchell 的警告直指这种模式的盲区
OpenClaw 的现实碰撞 — 监管审查、OAuth 撤回、加密货币骗局

Personalized Insights

跟你有什么关系？

产品设计

"Token 无关"是产品设计思路

不只是软件开发，任何 AI 产品都可以问：如果推理成本趋近于零，产品形态会怎么变？这个思考框架比"怎么省 token"更有价值。

注意力瓶颈

人类注意力是真正的瓶颈

做自己的 AI 产品时，规模化的瓶颈不在 AI 算力，而在人类审查和决策带宽。设计产品时要把"人类需要看多少 AI 输出"降到最低。

AI Psychosis 自检

100 个 Codex 说"没问题" ≠ 真的没问题

编码准则里有"AI 同意你的判断时，追问它为什么同意"。Peter 的模式需要同样的警觉：AI 共识不等于正确。

乐观与忧虑之间

找到自己的位置

Mitchell vs Peter 的张力不是对错问题，是度的问题。AI 产品应该在"极度乐观"和"深层忧虑"之间找到自己的平衡点。