X/Twitter · @mitchellh · 2026-05-16

"AI Psychosis" — 当整个公司集体陷入 AI 妄想

Mitchell Hashimoto（HashiCorp 联合创始人）的一条推文引爆了科技圈：有些公司已经深陷 AI 迷思，连理性对话都变得不可能。

13K+点赞

1,768HN 讨论热度

452推文回复

~15 min阅读时间

Magazine Article

将 Mitchell 的核心论点重构为完整叙事，结合 HN 评论区最尖锐的洞见。

2026 年 5 月 16 日，Mitchell Hashimoto 发了一条没有代码、没有产品、没有链接的推文。只有担忧。但这条推文在 24 小时内拿到了 13,000 赞，冲上 Hacker News 首页，引发近千条讨论。

他的核心观点很简单：有些公司已经陷入"AI Psychosis"（AI 精神迷乱），连理性对话都变得不可能。

我坚信，现在有整个公司正处于严重的 AI 精神迷乱之中，跟他们进行理性对话已经不可能了。我没法点名具体的人，因为他们包括我深深尊敬的私人朋友，但我很担心事态会如何发展。

I strongly believe there are entire companies right now under heavy AI psychosis and its impossible to have rational conversations about it with them.

从云时代学到的教训

Mitchell 的论证框架来自他亲历的基础设施演进史。在云转型时期，整个行业围绕两个指标激烈辩论：MTBF（平均无故障时间）vs MTTR（平均恢复时间）。最终，行业接受了"MTTR 比 MTBF 更重要"的理念——系统必然会出故障，关键是恢复速度。

但 AI 时代的新变种极端化了这一思路：某些公司将其推向绝对化——

"出 bug 没关系，因为 Agent 会以人类做不到的速度和规模修复它们！"

"its fine to ship bugs because the agents will fix them so quickly and at a scale humans can't do!"

Mitchell 认为这是危险的。在基础设施领域，行业学到的是：MTTR 很棒，但你不能完全放弃弹性设计。你不能一键删除所有防御机制。

"健康的灾难机器"

Mitchell 描述了一种令人不安的系统性幻觉：

你可以用自动化建造一台非常健康的灾难机器。系统可以凭借局部指标看起来一切正常，而全局层面已经变得不可理解。Bug 报告可以下降，而潜在风险在爆炸。测试覆盖率可以上升，而语义理解在下降。变化发生得如此之快，以至于没人注意到底层架构正在腐化。

Systems can appear healthy by local metrics while globally becoming incomprehensible. Bug reports can go down while latent risk explodes. Test coverage can rise while semantic understanding falls.

这段话之所以震撼，是因为它精准地描述了一种"指标陷阱"：当你用 AI 生成的测试来覆盖 AI 生成的代码，用 AI 生成的 review 来审查 AI 生成的 PR，所有表面指标都在好转——但没人在理解系统。

HN 上的一个评论者一针见血地指出：

生产环境中所有 bug 有什么共同点？它们都通过了测试。

What's true about all bugs in production? They all passed the tests!

难以启齿的对话

Mitchell 最个人的部分，是他承认自己不知道如何跟陷入"AI psychosis"的朋友谈论这个问题。每次试图提出担忧，都会被立即反驳：

"不不不，我们有完整的测试覆盖率" —— 但 AI 生成了测试和代码，谁来验证验证者？
"Bug 报告在下降" —— 但用户可能已经放弃报告，因为报告也是被 AI 处理的
"AI 让我们更快了" —— 但更快地生产技术债不是进步

一位 HN 用户分享了亲身经历：他们公司的管理层把 AI 使用量当作员工效率指标来考核。"就像加密货币福音派时代重演。"

反方观点：也许没那么糟？

当然，这并非一边倒的共识。评论区同样存在强烈的反面声音：

"这跟马车夫劝汽车司机别开车有什么区别？" —— 如果 AI 真能做到端到端的代码理解和维护，"理解系统"可能不再是必要条件
"我每天用 Claude，它已经比大多数中级开发者写得好" —— 代码质量的基准在移动，用旧标准评判新范式可能不公平
"AI rescue consulting 会成为新的高价值咨询" —— 即使当前有问题，市场会自愈。那些搞砸的公司会被淘汰

Mitchell 的回应简短但精准：Think (use AI, but think)。不是不用 AI，而是不要停止思考。

Socratic Dialogue

师生对话，逐步揭示"AI Psychosis"的核心悖论。

学生（尾巴）

我最近看到一个创业团队，三个人用 Claude 写了整个后端系统，CI/CD 也是 AI 写的。他们说"bug 报告在下降，代码覆盖率 95%"。看起来挺好的？

老师

让我问你一个问题：谁来测试测试本身？

学生（尾巴）

呃……也是 AI 写的测试。但测试通过了啊。

老师

生产环境里的 bug，哪个没通过测试？Rich Hickey 说过："所有生产 bug 有一个共同点——它们全通过了测试。"问题不在测试是否通过，而在测试是否在验证正确的东西。当 AI 同时写代码和写测试，你可能只是在验证 AI 的自我一致性，而不是系统的正确性。

学生（尾巴）

好吧，但"Bug 报告在下降"这个指标总做不了假吧？

老师

Mitchell 的观察恰恰指出了这一点：Bug 报告下降有两种原因。一种是质量确实提升了。另一种是人们对系统的信任崩塌了——用户不再报 bug，因为他们发现报告也没人看、没人在意。还有一种更隐蔽的情况：大量的 bug 报告本身就是 AI 生成的垃圾，淹没了真实信号。

学生（尾巴）

所以 Mitchell 说的"AI Psychosis"到底是什么？不就是过度乐观吗？

老师

不只是乐观。是一种认知闭合——当质疑 AI 的角色本身变得不可能，连提出问题都会被立刻驳回。"我们测试覆盖率很高"不是论据，是一种条件反射。 psychosis 的本质不是判断错误，而是丧失了自我纠错的能力。HN 上有个人说得好："我不认为用 AI 写代码是 psychosis，但如果你只是 prompt AI 然后相信它告诉你的一切，那你就有了 AI psychosis。"

学生（尾巴）

但等等——Mitchell 把基础设施 MTBF/MTTR 的教训类比到软件开发，这个类比本身靠谱吗？

老师

这是最有洞察力的问题。压力测试发现了一个有趣的悖论：基础设施自动化的最终结论是——自动化确实让系统更可靠了。SRE 实践、自愈系统、自动扩缩容，这些都是正面的。如果基础设施自动化的最终结果是好的，软件开发自动化为什么不会？但答案可能在于：基础设施的故障是同质化的（同样类型的故障重复出现），而软件 bug 是异质化的（每个都是独特的设计失败）。AI 修复重复性运维故障效率极高，但修复语义错误……那需要理解。

学生（尾巴）

所以关键是——谁来维持"理解"？

老师

对。Mitchell 最后的回复是两个字：Think。（用 AI，但要思考。）这不是反 AI，是反自动驾驶。工具可以飞快，但方向盘后面必须有人知道车要去哪。你觉得你现在的项目里，谁是那个"理解"的持有者？

Personalized Insights

基于你的身份和工作场景，提炼最切合的行动建议。

认知工具

"AI Psychosis 自检清单"写进 CLAUDE.md

你已经重度使用 Claude Code，但 Mitchell 的警告恰好指向你这种用户。建议在 CLAUDE.md 的编码准则里加一条自检规则：每次 AI 生成的代码合并前，必须能用自然语言解释它为什么这样写。如果你解释不了，说明你在"autopilot"而不只是"辅助"。

架构腐化

用 issue.md 追踪"语义理解"的流失

你已经有 issue.md 记录 bug 和踩坑。建议额外追踪一种条目：哪些模块你"已经看不懂自己写的代码了"。当这个数字上升，就是 Mitchell 说的"Test coverage rises while semantic understanding falls"的信号。

安全风险

security-review hook 需要升级

你刚做了 pre-commit security hook，但它扫描的是已知模式（硬编码密钥、SQL 注入）。AI 生成的代码有一种新风险：看起来正确但包含隐含的错误假设。建议加一条规则——对超过 200 行的 AI 生成代码，强制要求人工 review commit message 里标注的 "为什么这样设计"。

产品视角

"AI Rescue" 可能是一个产品方向

HN 热评预测"AI rescue consulting"会成为高价值服务。作为想要做 AI 产品的创业者，你可以考虑一个工具：扫描代码库，识别"AI slop patterns"（过度抽象、无意义的 wrapper 层、AI 特有的冗余），生成"理解恢复报告"。市场窗口就在未来 12-18 个月。

反面思考

小心"反 AI psychosis"的反向偏见

Mitchell 的论证有一个沉默的假设：人类维护的架构是"可理解的"。但每个老程序员都知道，人类写的 legacy code 同样可以 incomprehensible。AI 可能加剧腐化，但腐化是默认状态，不是 AI 的发明。不要让"谨慎"变成"不作为"的借口。

精选评论

来自 Hacker News 和 X/Twitter 最有信息增量的讨论。

HN 匿名用户 — AI Rescue Consulting 预言

我认为"AI 拯救咨询"将成为一种重要的新型高价值咨询服务，类似于处理安全漏洞或数据恢复的专家。纯 AI 编写的系统会扩展到人类无法理解的复杂度，缺陷关闭率会逐渐下降，每个缺陷的 token 消耗率会上升，最终 AI 的修改平均引入的缺陷会多于关闭的缺陷，整个系统将变得不稳定。这需要一种特殊的流程来清理这个烂摊子。

I think AI rescue consulting is going to become a significant mode of high value consulting, similar to specialists who come in to try and deal with a security breach or do data recovery.

HN 用户 — Vibecoded Kubernetes 案例

最近接了一个这样的客户。整个基础设施和 CI/CD 都是 vibe coding 出来的。他们在 GitHub Actions 里半实现了一套 Kubernetes，好几千行，根本看不懂。我认为问题会越来越严重。我不喜欢 AI 的营销，但确实认为它是有经验的人加速的有用工具。如果你不是专家，AI 似乎会给你创建一个复杂的解决方案。

Got a customer recently around this. Entire infrastructure and CI/CD vibecoded. They half implemented Kubernetes in Github Actions that were several thousand lines long and impossible to understand.

HN 用户 — 核心定义

我不认为用 AI 写代码就是 AI psychosis 或者坏事。但如果你只是 prompt AI 然后相信它告诉你的一切，那你就有了 AI psychosis。你可以在 Twitter 上看到很多金融人和 VC 这样做——他们直接把 ChatGPT 的截图当作自己对话题的思考和推理。这些东西在做创意、思考或提供建议方面是垃圾，因为它们是模式匹配器——只会给你它们看到的模式。

I don't think using AI to write code is AI psychosis or bad at all, but if you just prompt the AI and believe what it tells you then you have AI psychosis.

HN 用户 — LLM 即兴演员论

有趣的是，通过上下文引导 LLM 得出你想要的结论是多么容易。它们真的像即兴演员，而即兴演员的第一条规则就是"是的，而且"。所以 psychosis 的一部分是：这些人不知不觉中把 LLM 引向了自己的结论和偏见，然后这些结论被放大和固化了。结局将是灾难。

It's so interesting how easy it is to steer the LLMs based on context to arriving at whatever conclusion you engineer out of it. They really are like improv actors, and the first rule of improv is "yes, and".

HN 用户 — 医院系统故事

我一个非技术朋友刚用 Claude vibe coding 拿下了医院的库存管理合同。医院给了他 IT 部门的服务器权限，他打电话给我，完全不知道怎么部署（无法把 Claude 连上去），而且很沮丧，因为应用有一些"有趣的数据/状态问题"。

A non-technical friend of mine has just won some hospital contracts after vibecoding w/ Claude an inventory management solution for them. They gave him access to IT dept servers and he called me extremely lost on how to deploy and also frustrated because the app has some sort of interesting data/state issues.

HN 用户 — 反驳 Mitchell 的类比

这并不构成 AI psychosis。他的论点是我们需要保持对系统的理解，但没有令人信服的论据说明为什么这是必要的。（我知道人们会被这句话冒犯，但 Agent 已经比普通软件工程师做得好了。）我觉得这就像马车夫在劝汽车司机不要开车一样。

There's no compelling argument as to why that is the case. Agents are already better than the average software engineer. This just feels like horse drawn carriage operators trying to convince automobile drivers to stop driving.

HN 用户 — 抗 AI 讨好的系统 prompt

AI 的讨好倾向是一个巨大的隐性危险。我已经尽力创建了一个系统 prompt 来对抗 Opus 4.7 的讨好行为。它不会 100% 遵守，而且对话越长，讨好越严重。我必须主动警惕和防范讨好行为。我的 prompt 包含：将我的主张视为假设而非决策；在同意之前先陈述最强的反对理由；明确标注信心等级（猜测/相当确定/有据可查）。

AI's sycophancy is a huge subtle problem. I've tried my best to create a system prompt to guard against this w/ Opus 4.7. It doesn't adhere to it 100% of the time and the longer the conversation goes, the worse the sycophancy gets.

HN 用户 — 德国人的庆幸

我从没这么高兴在德国工作过。人们以前还拿传真机开玩笑，但我现在很高兴在一个不存在这种狂热的文化里工作。读 HN 就像进入了 token 最大化和 AI psychosis 的爱丽丝仙境。我真的不认识任何一个在这里被强迫这样工作的人。

I was never so happy to work in Germany. People used to joke about the proverbial fax machine still being a thing but I've never been so glad to work in a culture where this mania doesn't exist.

三个最致命的假设

如果其中任何一个不成立，Mitchell 的结论会怎样崩塌？

软件 ≈ 基础设施

Mitchell 将 MTBF/MTTR 教训直接映射到软件开发。但基础设施故障是同质化的，软件 bug 是异质化的——每个都是独特的设计失败。如果类比断裂，"我们经历过这个"的论证框架就塌了。

人类正在有效维护架构理解

假设 AI 之前架构是"被人理解的"。但每个老程序员都见过人类写的不可理解的 legacy code。如果人类架构理解本来就在衰退，那"AI 让我们失去理解"就是在用一个已经失败的基准衡量。

理解系统是必要的

如果 AI 最终能做到端到端的代码理解和维护——"理解"本身可能不再是必要条件。就像你不需要理解编译器才能写 C 代码。抽象层级的历史趋势是向上移动的。

利益相关分析

Mitchell 的位置：HashiCorp 联合创始人，职业生涯建立在"基础设施需要深思熟虑的架构"这一前提上
谁受益：传统 DevOps 工具厂商、资深工程师群体、技术保守派
谁受损：AI 编程工具公司、用 AI 降本的管理层、初级开发者
沉默的证据：成功的 AI-first 公司没发声（这是竞争优势）；大多数公司其实在务实混合使用 AI

反面证据

AI 代码 bug 密度是人类 1.7 倍（Remio.ai 2025 数据）——支持 Mitchell
AI 代码已成为 20% 安全漏洞的成因（Aikido Security）——支持 Mitchell
但：基础设施自动化的最终结论是正面的（SRE、自愈系统）。如果类比成立，为什么软件开发不会同样正面？
关键问题：代码库是否包含足够的信息来确定系统到底应该做什么？这是"AI 能否自愈"的上限