$1.3M Token 账单背后的真相
steipete 的"代币无关"实验——100+ Codex 并行、6 人团队、月烧 130 万美元。 当 token 不再重要,软件开发会变成什么样?
Magazine Article
2026 年 5 月,一条推文引爆了技术圈
2026 年 5 月,Peter Steinberger(@steipete),OpenClaw 的创造者、OpenAI 的新员工,晒出了他一个月的 AI token 账单——130 万美元。
人们的反应几乎是条件反射式的:震惊、质疑、嘲讽。"极度精简"这个描述成了最大的靶子——一个 6 人团队花 180 万美元在 AI token 上,这叫精简?
但 Peter 的核心论点不在数字本身。他在问一个更根本的问题:
如果 token 不再重要,未来的软件开发会是什么样?
How would we build software in the future if tokens don't matter?这不是一个成本优化问题,而是一个哲学实验。Peter 在做的事情是:把 token 消耗视为零,然后看软件开发的最佳实践会怎么变。
答案是:100+ 个 Codex 实例并行运行,每一个 PR 都被审查,每一个 commit 都做安全检查,每一个旧 issue 都会被重新扫描。这不再是"人写代码"的模式,而是"AI 狂奔,人类审查"。
这个模式的效率是惊人的。但问题也同样惊人。
硬币的另一面
就在 Peter 发推的同一周,Mitchell Hashimoto(HashiCorp 联合创始人)提出了"AI Psychosis"的概念——有些公司已经陷入 AI 迷乱,连理性对话都变得不可能。
你可以用自动化建造一台非常健康的灾难机器。Bug 报告可以下降,而潜在风险在爆炸。
You can build a very healthy disaster machine. Bug reports can go down while latent risk explodes.这两条推文形成了完美的对照:Peter 代表了 AI 原生开发的极致乐观主义,Mitchell 代表了基础设施老兵的深沉忧虑。
而 OpenClaw 本身正经历着复杂的现实——中国的监管审查、Anthropic 的 OAuth 撤回、甚至有人利用 CLAWD 名义做加密货币骗局。一个"如果 token 不重要"的实验,正在与现实世界发生碰撞。
6 个人如何驾驭 100 个 AI Agent
评论区最有价值的问题来自 @edzitron:"你们有多少人?" 答案:6 个。
6 个人审查 100+ 个 AI Agent 的输出。这意味着每个人的注意力被极度分散。Peter 说他们"审查每一个 PR"——但当你每天有几十个 AI 生成的 PR 需要审查时,审查本身会变成什么?是深入理解代码变更,还是快速扫一眼确认"看起来没问题"?
这正是 Mitchell 警告的"语义理解在下降"的具体场景。
Socratic Dialogue
师生对话:烧钱还是革命?
三个最致命的假设
如果任何一个不成立,论点就会崩塌
Token 成本会持续下降
整个论点的根基。如果 token 价格因算力短缺、能源成本或模型复杂化而停滞甚至上涨,"build as if tokens don't matter"就是一场豪赌。
更多 AI Agent = 更好的软件
假设并行运行 100 个 Codex 线性提升软件质量。但 Mitchell Hashimoto 的"健康灾难机器"警告表明:局部指标改善可能掩盖全局理解的丧失。
6 人能有效审查 100+ AI Agent
注意力瓶颈问题。当审查变成流水线作业,"审查"的定义已经变了——从理解代码变成确认格式。
支撑论点的证据
- Token 成本确实在下降 — GPT-4 级别模型的每 token 成本一年内降了 10 倍
- AI 安全扫描确实有效 — Codex 在漏洞检测上的召回率高于人工审查
- OpenClaw 在运行 — 不是理论,是已经在工作的系统
反面证据
- Jevons 悖论 — 成本下降导致用量暴涨,总支出可能不降反升
- AI Psychosis 同周爆发 — Mitchell 的警告直指这种模式的盲区
- OpenClaw 的现实碰撞 — 监管审查、OAuth 撤回、加密货币骗局
Personalized Insights
跟你有什么关系?
"Token 无关"是产品设计思路
不只是软件开发,任何 AI 产品都可以问:如果推理成本趋近于零,产品形态会怎么变?这个思考框架比"怎么省 token"更有价值。
人类注意力是真正的瓶颈
做自己的 AI 产品时,规模化的瓶颈不在 AI 算力,而在人类审查和决策带宽。设计产品时要把"人类需要看多少 AI 输出"降到最低。
100 个 Codex 说"没问题" ≠ 真的没问题
编码准则里有"AI 同意你的判断时,追问它为什么同意"。Peter 的模式需要同样的警觉:AI 共识不等于正确。
找到自己的位置
Mitchell vs Peter 的张力不是对错问题,是度的问题。AI 产品应该在"极度乐观"和"深层忧虑"之间找到自己的平衡点。
精选评论
社区怎么看?