X/Twitter 翻译解读

$1.3M Token 账单背后的真相

steipete 的"代币无关"实验——100+ Codex 并行、6 人团队、月烧 130 万美元。 当 token 不再重要,软件开发会变成什么样?

$1.3M 月度 AI Token 支出
100+ 并行 Codex 实例
6 人 团队规模
-70% 关掉快速模式可省

Magazine Article

2026 年 5 月,一条推文引爆了技术圈

2026 年 5 月,Peter Steinberger(@steipete),OpenClaw 的创造者、OpenAI 的新员工,晒出了他一个月的 AI token 账单——130 万美元

人们的反应几乎是条件反射式的:震惊、质疑、嘲讽。"极度精简"这个描述成了最大的靶子——一个 6 人团队花 180 万美元在 AI token 上,这叫精简?

但 Peter 的核心论点不在数字本身。他在问一个更根本的问题:

如果 token 不再重要,未来的软件开发会是什么样?

How would we build software in the future if tokens don't matter?

这不是一个成本优化问题,而是一个哲学实验。Peter 在做的事情是:把 token 消耗视为零,然后看软件开发的最佳实践会怎么变。

答案是:100+ 个 Codex 实例并行运行,每一个 PR 都被审查,每一个 commit 都做安全检查,每一个旧 issue 都会被重新扫描。这不再是"人写代码"的模式,而是"AI 狂奔,人类审查"

这个模式的效率是惊人的。但问题也同样惊人。

硬币的另一面

就在 Peter 发推的同一周,Mitchell Hashimoto(HashiCorp 联合创始人)提出了"AI Psychosis"的概念——有些公司已经陷入 AI 迷乱,连理性对话都变得不可能。

你可以用自动化建造一台非常健康的灾难机器。Bug 报告可以下降,而潜在风险在爆炸。

You can build a very healthy disaster machine. Bug reports can go down while latent risk explodes.

这两条推文形成了完美的对照:Peter 代表了 AI 原生开发的极致乐观主义,Mitchell 代表了基础设施老兵的深沉忧虑。

而 OpenClaw 本身正经历着复杂的现实——中国的监管审查、Anthropic 的 OAuth 撤回、甚至有人利用 CLAWD 名义做加密货币骗局。一个"如果 token 不重要"的实验,正在与现实世界发生碰撞。

6 个人如何驾驭 100 个 AI Agent

评论区最有价值的问题来自 @edzitron:"你们有多少人?" 答案:6 个。

6 个人审查 100+ 个 AI Agent 的输出。这意味着每个人的注意力被极度分散。Peter 说他们"审查每一个 PR"——但当你每天有几十个 AI 生成的 PR 需要审查时,审查本身会变成什么?是深入理解代码变更,还是快速扫一眼确认"看起来没问题"?

这正是 Mitchell 警告的"语义理解在下降"的具体场景。

Socratic Dialogue

师生对话:烧钱还是革命?

学生:6 个人花 130 万美元在 AI token 上,一个月。这到底是在写软件还是在烧钱?
老师:先不急着判断。Peter 的核心论点是什么?
学生:"如果 token 不重要,软件开发会怎样?"所以他是在做一个思维实验,不是在炫耀花钱。
老师:对。那结果呢?100 个 Codex 并行运行的结果是什么?
学生:每个 PR 都被审查,每个旧 issue 都会被重新扫描,每个 commit 都做安全检查。听起来效率很高?
老师:6 个人审查 100 个 AI 的输出。当你每天要审查几十个 AI 生成的 PR 时,你的"审查"质量会怎样变化?
学生:可能从"深入理解每一行变更"变成"扫一眼确认没明显问题"。
老师:这就对了。注意 Mitchell Hashimoto 同一周发出的警告——"测试覆盖率可以上升,而语义理解在下降"。你觉得巧合吗?
学生:不是巧合。Peter 的模式正是 Mitchell 所担心的。但反过来说,100 个 Codex 确实能发现人类审查者会遗漏的东西吧?
老师:是的,这是硬币的另一面。AI Agent 在重复性、规模化检查上确实优于人类。但 Peter 说的"审查每一个 PR"和传统意义上的代码审查不是一回事了。
学生:那 token 成本会继续下降这个假设靠谱吗?
老师:这是整个论点的根基。如果 token 成本真的趋近于零,Peter 的模式会成为主流。但历史告诉我们,计算成本下降时,使用量会以更快的速度增长——Jevons 悖论。Token 可能越来越便宜,但你用的也越来越多。
学生:所以结论是什么?
老师:没有简单结论。Peter 的实验有价值,但它验证的是一个极端假设。真正的未来可能在中间地带——AI Agent 做规模化检查,人类做架构决策和语义审查,token 成本是考虑因素但不是唯一因素。

精选评论

社区怎么看?

@BeCachet
用 180 万美元的 token 叫"极度精简"?
"extremely lean" w/ $1.8m in tokens
@tylerwillis
Token 成本会持续下降,这会变得人人可及。
Token costs will keep dropping, this will become accessible to everyone.
@edzitron → @steipete
你们有多少人? → 大约 6 个。
How many people? → Around 6.
@RhysSullivan
每次看到你的工作流,我才发现自己有多少要学的。
Every time I see your workflow I realize how much I have to learn.
@PeterBell → @steipete
很多东西可以用确定性工具做,不需要 AI。
Much can be done deterministically without AI.
@steipete 回复
我们也用很多确定性工具,没列全。
We do a lot deterministically too, didn't list everything.

三个最致命的假设

如果任何一个不成立,论点就会崩塌

假设 1

Token 成本会持续下降

整个论点的根基。如果 token 价格因算力短缺、能源成本或模型复杂化而停滞甚至上涨,"build as if tokens don't matter"就是一场豪赌。

假设 2

更多 AI Agent = 更好的软件

假设并行运行 100 个 Codex 线性提升软件质量。但 Mitchell Hashimoto 的"健康灾难机器"警告表明:局部指标改善可能掩盖全局理解的丧失。

假设 3

6 人能有效审查 100+ AI Agent

注意力瓶颈问题。当审查变成流水线作业,"审查"的定义已经变了——从理解代码变成确认格式。

支撑论点的证据

  • Token 成本确实在下降 — GPT-4 级别模型的每 token 成本一年内降了 10 倍
  • AI 安全扫描确实有效 — Codex 在漏洞检测上的召回率高于人工审查
  • OpenClaw 在运行 — 不是理论,是已经在工作的系统

反面证据

  • Jevons 悖论 — 成本下降导致用量暴涨,总支出可能不降反升
  • AI Psychosis 同周爆发 — Mitchell 的警告直指这种模式的盲区
  • OpenClaw 的现实碰撞 — 监管审查、OAuth 撤回、加密货币骗局

Personalized Insights

跟你有什么关系?

产品设计

"Token 无关"是产品设计思路

不只是软件开发,任何 AI 产品都可以问:如果推理成本趋近于零,产品形态会怎么变?这个思考框架比"怎么省 token"更有价值。

注意力瓶颈

人类注意力是真正的瓶颈

做自己的 AI 产品时,规模化的瓶颈不在 AI 算力,而在人类审查和决策带宽。设计产品时要把"人类需要看多少 AI 输出"降到最低。

AI Psychosis 自检

100 个 Codex 说"没问题" ≠ 真的没问题

编码准则里有"AI 同意你的判断时,追问它为什么同意"。Peter 的模式需要同样的警觉:AI 共识不等于正确。

乐观与忧虑之间

找到自己的位置

Mitchell vs Peter 的张力不是对错问题,是度的问题。AI 产品应该在"极度乐观"和"深层忧虑"之间找到自己的平衡点。