"AI Psychosis" — 当整个公司集体陷入 AI 妄想
Mitchell Hashimoto(HashiCorp 联合创始人)的一条推文引爆了科技圈:有些公司已经深陷 AI 迷思,连理性对话都变得不可能。
Magazine Article
将 Mitchell 的核心论点重构为完整叙事,结合 HN 评论区最尖锐的洞见。
2026 年 5 月 16 日,Mitchell Hashimoto 发了一条没有代码、没有产品、没有链接的推文。只有担忧。但这条推文在 24 小时内拿到了 13,000 赞,冲上 Hacker News 首页,引发近千条讨论。
他的核心观点很简单:有些公司已经陷入"AI Psychosis"(AI 精神迷乱),连理性对话都变得不可能。
我坚信,现在有整个公司正处于严重的 AI 精神迷乱之中,跟他们进行理性对话已经不可能了。我没法点名具体的人,因为他们包括我深深尊敬的私人朋友,但我很担心事态会如何发展。
I strongly believe there are entire companies right now under heavy AI psychosis and its impossible to have rational conversations about it with them.
从云时代学到的教训
Mitchell 的论证框架来自他亲历的基础设施演进史。在云转型时期,整个行业围绕两个指标激烈辩论:MTBF(平均无故障时间)vs MTTR(平均恢复时间)。最终,行业接受了"MTTR 比 MTBF 更重要"的理念——系统必然会出故障,关键是恢复速度。
但 AI 时代的新变种极端化了这一思路:某些公司将其推向绝对化——
"出 bug 没关系,因为 Agent 会以人类做不到的速度和规模修复它们!"
"its fine to ship bugs because the agents will fix them so quickly and at a scale humans can't do!"
Mitchell 认为这是危险的。在基础设施领域,行业学到的是:MTTR 很棒,但你不能完全放弃弹性设计。你不能一键删除所有防御机制。
"健康的灾难机器"
Mitchell 描述了一种令人不安的系统性幻觉:
你可以用自动化建造一台非常健康的灾难机器。系统可以凭借局部指标看起来一切正常,而全局层面已经变得不可理解。Bug 报告可以下降,而潜在风险在爆炸。测试覆盖率可以上升,而语义理解在下降。变化发生得如此之快,以至于没人注意到底层架构正在腐化。
Systems can appear healthy by local metrics while globally becoming incomprehensible. Bug reports can go down while latent risk explodes. Test coverage can rise while semantic understanding falls.
这段话之所以震撼,是因为它精准地描述了一种"指标陷阱":当你用 AI 生成的测试来覆盖 AI 生成的代码,用 AI 生成的 review 来审查 AI 生成的 PR,所有表面指标都在好转——但没人在理解系统。
HN 上的一个评论者一针见血地指出:
生产环境中所有 bug 有什么共同点?它们都通过了测试。
What's true about all bugs in production? They all passed the tests!
难以启齿的对话
Mitchell 最个人的部分,是他承认自己不知道如何跟陷入"AI psychosis"的朋友谈论这个问题。每次试图提出担忧,都会被立即反驳:
- "不不不,我们有完整的测试覆盖率" —— 但 AI 生成了测试和代码,谁来验证验证者?
- "Bug 报告在下降" —— 但用户可能已经放弃报告,因为报告也是被 AI 处理的
- "AI 让我们更快了" —— 但更快地生产技术债不是进步
一位 HN 用户分享了亲身经历:他们公司的管理层把 AI 使用量当作员工效率指标来考核。"就像加密货币福音派时代重演。"
反方观点:也许没那么糟?
当然,这并非一边倒的共识。评论区同样存在强烈的反面声音:
- "这跟马车夫劝汽车司机别开车有什么区别?" —— 如果 AI 真能做到端到端的代码理解和维护,"理解系统"可能不再是必要条件
- "我每天用 Claude,它已经比大多数中级开发者写得好" —— 代码质量的基准在移动,用旧标准评判新范式可能不公平
- "AI rescue consulting 会成为新的高价值咨询" —— 即使当前有问题,市场会自愈。那些搞砸的公司会被淘汰
Mitchell 的回应简短但精准:Think (use AI, but think)。不是不用 AI,而是不要停止思考。
Socratic Dialogue
师生对话,逐步揭示"AI Psychosis"的核心悖论。
我最近看到一个创业团队,三个人用 Claude 写了整个后端系统,CI/CD 也是 AI 写的。他们说"bug 报告在下降,代码覆盖率 95%"。看起来挺好的?
让我问你一个问题:谁来测试测试本身?
呃……也是 AI 写的测试。但测试通过了啊。
生产环境里的 bug,哪个没通过测试?Rich Hickey 说过:"所有生产 bug 有一个共同点——它们全通过了测试。"问题不在测试是否通过,而在测试是否在验证正确的东西。当 AI 同时写代码和写测试,你可能只是在验证 AI 的自我一致性,而不是系统的正确性。
好吧,但"Bug 报告在下降"这个指标总做不了假吧?
Mitchell 的观察恰恰指出了这一点:Bug 报告下降有两种原因。一种是质量确实提升了。另一种是人们对系统的信任崩塌了——用户不再报 bug,因为他们发现报告也没人看、没人在意。还有一种更隐蔽的情况:大量的 bug 报告本身就是 AI 生成的垃圾,淹没了真实信号。
所以 Mitchell 说的"AI Psychosis"到底是什么?不就是过度乐观吗?
不只是乐观。是一种认知闭合——当质疑 AI 的角色本身变得不可能,连提出问题都会被立刻驳回。"我们测试覆盖率很高"不是论据,是一种条件反射。 psychosis 的本质不是判断错误,而是丧失了自我纠错的能力。HN 上有个人说得好:"我不认为用 AI 写代码是 psychosis,但如果你只是 prompt AI 然后相信它告诉你的一切,那你就有了 AI psychosis。"
但等等——Mitchell 把基础设施 MTBF/MTTR 的教训类比到软件开发,这个类比本身靠谱吗?
这是最有洞察力的问题。压力测试发现了一个有趣的悖论:基础设施自动化的最终结论是——自动化确实让系统更可靠了。SRE 实践、自愈系统、自动扩缩容,这些都是正面的。如果基础设施自动化的最终结果是好的,软件开发自动化为什么不会?但答案可能在于:基础设施的故障是同质化的(同样类型的故障重复出现),而软件 bug 是异质化的(每个都是独特的设计失败)。AI 修复重复性运维故障效率极高,但修复语义错误……那需要理解。
所以关键是——谁来维持"理解"?
对。Mitchell 最后的回复是两个字:Think。(用 AI,但要思考。)这不是反 AI,是反自动驾驶。工具可以飞快,但方向盘后面必须有人知道车要去哪。你觉得你现在的项目里,谁是那个"理解"的持有者?
Personalized Insights
基于你的身份和工作场景,提炼最切合的行动建议。
"AI Psychosis 自检清单"写进 CLAUDE.md
你已经重度使用 Claude Code,但 Mitchell 的警告恰好指向你这种用户。建议在 CLAUDE.md 的编码准则里加一条自检规则:每次 AI 生成的代码合并前,必须能用自然语言解释它为什么这样写。如果你解释不了,说明你在"autopilot"而不只是"辅助"。
用 issue.md 追踪"语义理解"的流失
你已经有 issue.md 记录 bug 和踩坑。建议额外追踪一种条目:哪些模块你"已经看不懂自己写的代码了"。当这个数字上升,就是 Mitchell 说的"Test coverage rises while semantic understanding falls"的信号。
security-review hook 需要升级
你刚做了 pre-commit security hook,但它扫描的是已知模式(硬编码密钥、SQL 注入)。AI 生成的代码有一种新风险:看起来正确但包含隐含的错误假设。建议加一条规则——对超过 200 行的 AI 生成代码,强制要求人工 review commit message 里标注的 "为什么这样设计"。
"AI Rescue" 可能是一个产品方向
HN 热评预测"AI rescue consulting"会成为高价值服务。作为想要做 AI 产品的创业者,你可以考虑一个工具:扫描代码库,识别"AI slop patterns"(过度抽象、无意义的 wrapper 层、AI 特有的冗余),生成"理解恢复报告"。市场窗口就在未来 12-18 个月。
小心"反 AI psychosis"的反向偏见
Mitchell 的论证有一个沉默的假设:人类维护的架构是"可理解的"。但每个老程序员都知道,人类写的 legacy code 同样可以 incomprehensible。AI 可能加剧腐化,但腐化是默认状态,不是 AI 的发明。不要让"谨慎"变成"不作为"的借口。
三个最致命的假设
如果其中任何一个不成立,Mitchell 的结论会怎样崩塌?
软件 ≈ 基础设施
Mitchell 将 MTBF/MTTR 教训直接映射到软件开发。但基础设施故障是同质化的,软件 bug 是异质化的——每个都是独特的设计失败。如果类比断裂,"我们经历过这个"的论证框架就塌了。
人类正在有效维护架构理解
假设 AI 之前架构是"被人理解的"。但每个老程序员都见过人类写的不可理解的 legacy code。如果人类架构理解本来就在衰退,那"AI 让我们失去理解"就是在用一个已经失败的基准衡量。
理解系统是必要的
如果 AI 最终能做到端到端的代码理解和维护——"理解"本身可能不再是必要条件。就像你不需要理解编译器才能写 C 代码。抽象层级的历史趋势是向上移动的。
利益相关分析
- Mitchell 的位置:HashiCorp 联合创始人,职业生涯建立在"基础设施需要深思熟虑的架构"这一前提上
- 谁受益:传统 DevOps 工具厂商、资深工程师群体、技术保守派
- 谁受损:AI 编程工具公司、用 AI 降本的管理层、初级开发者
- 沉默的证据:成功的 AI-first 公司没发声(这是竞争优势);大多数公司其实在务实混合使用 AI
反面证据
- AI 代码 bug 密度是人类 1.7 倍(Remio.ai 2025 数据)——支持 Mitchell
- AI 代码已成为 20% 安全漏洞的成因(Aikido Security)——支持 Mitchell
- 但:基础设施自动化的最终结论是正面的(SRE、自愈系统)。如果类比成立,为什么软件开发不会同样正面?
- 关键问题:代码库是否包含足够的信息来确定系统到底应该做什么?这是"AI 能否自愈"的上限
精选评论
来自 Hacker News 和 X/Twitter 最有信息增量的讨论。