来源:X (Twitter) Article by @AnatoliKopadze 原文标题:Loops explained: Claude, GPT, Mira and what actually works(循环详解:Claude、GPT、Mira 以及真正有效的东西) 原文链接:https://x.com/AnatoliKopadze/status/2068328135611822149 作者:Anatoli Kopadze(@AnatoliKopadze,个人简介:“Adapt or die”) 发布时间:2026-06-20 互动数据:905 万浏览 / 4352 赞 / 649 转发 / 133 回复 / 139 引用 分析完成时间:2026-06-24 22:20:00
一、全文翻译
多数人怎么用 AI?
AI 进到每个人手里已经好几年了。但大多数每天都在用它的人,用的却是最慢的方式:敲一个请求,等,改,再问,全程手动。
不是因为更快的方式有多复杂,而是因为没人给他们看过更快的方式长什么样。
更快的方式是一个 loop(循环),而现在,全世界最顶尖的 AI 工程师只关心这一件事。这篇文章补上的是「没人给你解释过」的那一块。
读完之后,你会比时间线上几乎所有人都更懂 loop:它是什么、底层究竟怎么运作、什么时候值得用、什么时候是个坑、如何在 Claude 或 ChatGPT 里手搓一个基础版,以及哪些简单的 loop 值得在你自己的生活里跑起来。
多数人怎么用 AI?(展开)
仔细看「一次一个请求」这个习惯,因为它就是问题的全部。每一步都要经过你:你来决定问什么、你来评判答案、你来决定下一步。AI 不会自己动,除非你推它;你一停,它就停。
这没问题,但它有天花板。你是引擎。AI 只是你手里的工具,而工具自己什么也干不了。
还有另一种工作方式,也是全世界最顶尖的工程师正在改变构建方式的原因。与其牵着 AI 走过每一步,你不如把目标一次性给它,让它自己跑步骤。它自己规划、自己干活、自己检查结果、自己修补薄弱处、自己重复,直到目标达成。你退出来。活儿继续跑。
Loop 是什么?
一个 prompt(提示词)是一条指令。一个 loop 是一个 目标,AI 会持续朝着它工作直到达成。把它理解成一个递归目标(recursive goal):你定义一个目的,AI 反复迭代直到完成。
prompt 给你一个答案然后等你决定下一步。loop 则是自己跑完整个循环:Plan → Act → Verify → Fix → Repeat,其中 Verify 是核心。
这五个里,有三个干了几乎全部真正的活,也正是人们最容易搞错 loop 的地方。
Verify(验证)是 loop 的心脏。 没有对结果的真实检查,你拥有的不是一个 loop,而是 agent 在反复附和自己。检查这一步,把「重复」变成「进步」。它可以是一个硬测试(“代码能不能通过”)、一个可衡量的条件(“这个数是不是高于 X”)、或者一个让模型对照打分的评分量表(rubric)。没有这道闸门,就是 agent 给自己的作业打分——而干活的那个模型,打分宽松得离谱。
State(状态)是让 loop 能学习的东西。 每一轮,AI 必须记住自己已经试过什么,否则它会永远重复同一个错误。一个真正的 loop 会在旁边记一份小记录:什么做完了、什么失败了、下一步是什么。明天的运行是从断点续上,而不是从零开始。这也正是它开始变贵的地方,后面会讲。
停止条件(stop condition)是让它保持清醒的东西。 一个没有出口的 loop,要么跑到成功,要么崩掉,要么掏空你的账户。每一个严肃的 loop 都有两种停止方式:成功,以及一个硬上限(“试了 8 次之后,停下来汇报”)。跳过这一步,你就造了一台能白白跑一整夜的机器。
prompt 把一条指令递给 AI。loop 把一份活、一种判断这活何时算完的方式、以及一条何时放弃的规则递给 AI。
你到底需不需要一个 loop?
多数文章在你搞清楚「什么时候它是个错误」之前,就先把 loop 卖给你了。这里有一个真正严肃的人会用的测试。只有当下面四条全部成立时,才值得搭一个 loop:
- 这个任务会重复,至少每周一次。 低于这个频率,搭建成本永远收不回来。一次性的活,还是用一个好 prompt 更合适。
- 有东西能自动拒绝坏输出。 一个测试、一个类型检查、一次构建、一个 linter、一条硬规则。如果没有任何东西能让这份活「挂掉」,loop 就只是空转。
- agent 能真正自己把这活干完,端到端,而不是把一半踢回给你。
- “完成"是客观的,不是主观判断。 如果质量是口味问题,人类还是赢。
少打一个勾,就把它留在手动 prompt。整个话题的诚实版本是:loop 工程是真实的,但多数人还不需要那个重版本。每个人都能用的是轻版本,后面会讲。但你得知道这条线画在哪。
为代码而生的那一个版本
Loop 先在软件领域爆发,因为代码是这个世界上最容易验证的东西。测试通过或失败,没有可争辩的余地,所以 AI 总是知道自己是否完成了。
一个 coding loop 被赋予一个目标,以及一种严格检查它的方式。
底层看,一个真正的 loop 由五个 building blocks(构建块)组装而成。Claude Code 和 Codex 现在把这五个全内置了。
1. The automation — 自动化(心跳)
这是让一个东西变成 loop、而不是你只跑过一次的一次性的触发器。你定义一个 prompt、一个节奏(cadence)、一个目标,它就按计划跑,不需要你启动它。在 Claude Code 里,/loop 按间隔重跑一个 prompt,/goal 让一个 session 持续运行直到你写的某个条件真正成立,hooks 在 agent 生命周期的某些节点触发命令,把它推到 cron job 或 GitHub Actions 上,能让它在你合上笔记本后继续跑。结论来找你。你不再是那个到处去检查的人。
2. The skill — 技能(可复用的指令)
与其每次都把一整面墙的指令粘进去,不如把它们存成一个文件,让 loop 每次都读:规则、要遵循的模式、以及一份它绝对不能碰的东西的硬清单。现在自动化只需要按名字调用这个 skill,这份重复性的活就保持可维护,而不是烂在一个没人更新的调度里。
3. Sub-agents — 子代理(让干活的远离检查的)
loop 里最有用的一个结构性技巧,就是把干活的 agent 和检查的 agent 拆开。写代码的那个模型,给自己的作业打分太心软。第二个 agent,用不同的指令、有时在更高 effort(努力度)上用更强的模型,能抓住第一个 agent 说服自己接受的那些东西。你的写手可以又快又便宜,你的审查者可以又慢又严。这种分离,占了质量的大头。
4. Connectors — 连接器(让它去行动,而不是去建议)
这就是「给你修法」的 agent 和「自己开 PR、关联工单、构建一绿就 @ 频道」的 loop 之间的区别。连接器让 loop 在你真实的环境里行动,而不是只描述「如果我能做我会怎么做」。
5. The verifier — 验证器(闸门)
那个会自动拒绝坏活儿的测试、类型检查或构建。这是唯一一个决定 loop 是在帮你、还是只在花你钱的 building block。其他一切全是管道工程。这一块才让它成为真的。
把这些叠起来,你就得到了大团队现在大规模运行的东西:同一个活儿上 looping 的 agent 舰队,几十个或几千个同时跑。有个工程师用这样一个 loop,在大约六天里把一整个代码库从一种编程语言重写到另一种语言——这活儿手工干要花将近一年。这是严肃软件如何被构建的一场真实变革。而它带着一个 demo 永远不会展示的代价。
没人提的成本
Loop 跑在 token 上,而 token 就是钱。问题不在于每一步都花钱。问题在于成本怎么 compound(复利式增长)。
loop 每转一圈,agent 就重新读一遍它的上下文:目标、代码、上一个结果、什么失败了。这一整堆每一次迭代都被送进模型,而且每一轮都在变大。一个跑十次的 loop,成本不是十个 prompt。它是十个各自越来越大的 prompt。那个提升质量的「干活-检查」技巧也把账单翻倍,因为现在有两个模型在读这份活,而不是一个。
那个真正重要、却几乎没人追踪的指标,是 cost per accepted change(每个被采纳的改动的成本)。不是花了多少 token、跑了多少圈。如果 loop 给你十个结果你扔掉六个,你就是在做它本该省掉的审查活儿。接受率低于 50%,它花出去的比它给你的多。
loop 还会静默失败。工程师 Geoffrey Huntley 把它叫作 “Ralph Wiggum loop”(拉尔夫·维古姆循环):agent 过早判定自己完成了,在一个半成品上退出,loop 却继续跑、继续花钱,同时什么都不产出。没有一道能让活儿「挂掉」的硬闸门,loop 不会崩溃——它会在沉默中给你计费。
这就是为什么重版本属于那些有预算、有护栏来运行它的团队:迭代上限、token 预算、在无聊步骤上用便宜模型、监控。如果这不是你,你没有错过什么——核心思想能以一小部分成本和零搭建成本起作用。
真正有效的顺序
如果你真要搭一个,顺序比工具更重要。那些能把 loop 在生产环境里活下去地交付的人,全都用同一种方式做:先手动证明一次可靠 → 再硬化它 → 然后才自动化。
跳过前面、去调度一个你还没手动跑可靠的活,正是 loop 在你睡觉时炸掉的方式。先证明它一次,硬化它,然后才自动化。
自己手搓一个基础 loop(任意 LLM)
你不需要一个 coding agent 才能感受它是怎么运作的。你现在就能在任何 LLM 里手动跑一个简单的 loop,只需要一个 prompt。诀窍是一次性把 loop 的三个部分全给模型:一个目标、严格的成功标准、以及一个强制它在被允许停下之前必须检查自己的协议。
看会发生什么。模型起草、用你的标准给自己的活打分、找到薄弱点、重写,一遍又一遍,直到它真正越过那道线,而不是把第一个看起来差不多的东西递给你。这就是一个 loop。你用一个段落就搭了一个。
但注意还缺什么,因为这是接下来整件事的核心。你是触发器。 是你打开了聊天、粘贴了 prompt、坐在那里看它迭代。关掉标签页,它就没了。没有调度。没有"每天早上做这个”,没有"邮件一来就唤醒"。它无法主动找到你,因为它只在你看着它时才存在。
要得到一个自己跑、按调度、被真实事件触发、不用你盯着的 loop,你通常得走进前面那个重世界:工具、托管、代码、闸门、还有一张账单。
这对真正重的任务是合理的。但是对于 99% 的日常任务,已经有了一个现成、极其简单的方案。
同一个思想,用于你的真实生活
剥掉代码和成本,剩下的是一个简单、真正有用的概念:一个自己运行的任务,按调度或在某事发生的那一刻,不需要你记住它或在场。 你不需要为此成为工程师。你只需要为生活、而不是为代码库构建的 loop。
有一个免费选项,你用大白话描述就能创建一个。没代码、没托管、没密钥、没要开着的标签页、没会搞错的构建顺序。
它叫 Mira,住在 Telegram 里——那个你大概率已经开着的 app。你像跟朋友发消息一样跟它说话,它跑起来的 loop 叫作 Skills(技能)。每个 Skill 悄悄地拥有一个真正 loop 需要的全部部件——一个触发器、一个动作、一种自己运行的方式——只不过你永远不用把它们任何两个接在一起。你只说你想要什么。
那是一个真正的 loop。一个时间触发器、一个跨两个已连接 app 的多步动作、自己跑、来找你。你把它写成了一条消息。
注意:以下部分进入 B 层(产品软广层),非中立推荐。
Mira 实际能做什么
让这件事说通的就是这一部分。Mira 不是一个更聪明的 chatbot。它和 ChatGPT 的区别很简单:ChatGPT 回答,Mira 行动。
它通过 Composio 连接 500+ 个 app(Notion、Gmail、Google Calendar、GitHub、Figma、Stripe 和几百个),它有跨 session 和群聊都保持的长期记忆,它是 model-agnostic(模型无关)的,根据任务跑 GPT、Claude、Gemini。
For work(工作):它在几秒内帮你追上一条 200 条消息的讨论串、在你继续聊的时候归档工单、走进会议时已经做好了简报。
For creators(创作者):Mira 在聊天里端到端做内容。语音备忘录进去,大约 30 秒成品帖子出来。一份 brief 变成六个平台原生版本。
For voice(语音):Mira 把语音当作一等输入。
For your life(你的生活):同一台引擎,对准其他一切。一个逼你坚持连续记录的教练。一本真的记得你、随时间变成签到伙伴的日记。一张照片就完成卡路里追踪。从你自己犯的错里建起来的语言练习。一个价格合适就出手的航班监控。
如何在两分钟内开始
打开 Telegram。进入 Mira。发一条消息。免费访问立即生效。
这篇文章里任何一个例子,你一敲进去就变成了一个运行中的 loop。
这对你到底意味着什么
loop 不是一个趋势。它们是一次 谁在干活的转移。AI 不再等你推着它走过每一步,而是开始自己跑完整个活儿。
话虽如此,这不是你应该去追逐、或强行塞进它不属于的地方的东西。更多时候,你只会为了什么都没有而烧钱。
我的看法:先用已经免费在那里的东西开始,只有当你真正感觉到它不够时,才应该开始想你到底需要什么。
如果你想跟上 AI 里发生的一切,在 X 和 Telegram 关注我。
二、工程级深度解读
这篇文章回答的问题: 什么是 AI loop,它底层由哪些部件构成,以及一个普通人怎么把它跑起来。
这篇文章应该回答但没回答的问题: 既然 Anthropic 官方已经在 2026 年 3 月发布了 Claude Code Telegram channels(一个比第三方更正统的方案),那为什么作者只推 Mira?
1. 这篇文章的「双层结构」——先看穿它
这是一篇典型的 “干货引流 + 产品转化” 文章,必须拆成两层读:
| 层级 | 内容 | 价值 |
|---|---|---|
| A 层(前 60%) | loop 工程方法论:五大 building blocks、Verify 是心脏、maker-checker、cost per accepted change、判断是否需要 loop 的四条 | 真·工程干货,与 Anthropic 官方 agent 工程指南高度一致 |
| B 层(后 40%) | 引出 Mira(Telegram bot),讲它能连 500+ app、做内容、当教练 | 产品软广,作者与 Mira 存在强利益相关 |
标题「Loops explained: Claude, GPT, Mira」是一个精心设计的修辞:把 Mira 和 Claude、GPT 并列,暗示 Mira 是同一层级的东西。但 Claude 和 GPT 是基础模型(model layer),Mira 是建在它们之上的应用层 agent(application layer)——它自己都说了是"model-agnostic,跑 GPT/Claude/Gemini"。把应用层产品和基础模型并列,是经典的偷换概念。
结论:A 层值得逐字精读,B 层当作 case study 看,别当成中立推荐。
2. loop 五大 building blocks——这是全文唯一值钱的部分
作者这部分写得相当准确,我用工程视角补全(含你可以自己验证的对应物):
| # | 部件 | 职责 | 在 Claude Code / Codex 里的对应物 | 你是否可验证 |
|---|---|---|---|---|
| 1 | Automation(自动化/心跳) | 让它"会自己跑",而不是你只跑一次 | /loop(按间隔重跑)、/goal(跑到条件成立)、hooks、cron/GitHub Actions | ✅ 可验证 |
| 2 | Skill(可复用指令) | 把规则/模式/禁区存成文件,按名调用 | Claude Code 的 SKILL.md、Anthropic Agent Skills | ✅ 可验证 |
| 3 | Sub-agents(干活/检查分离) | 写手和审查者用不同 agent,甚至不同模型/不同 effort | Claude Code 的 Task/Agent 工具、多 subagent 并发 | ✅ 可验证 |
| 4 | Connectors(连接器) | 让 agent 真去行动(开 PR、@ 人),而非只"建议" | MCP servers、GitHub/Linear/Slack 集成 | ✅ 可验证 |
| 5 | Verifier(验证器/闸门) | 自动拒绝坏输出,唯一决定 loop 帮你还是烧你钱 | 测试、类型检查、lint、build | ✅ 可验证 |
最关键的洞察在第 3 和第 5 条,这也是你和"一次一个 prompt"用户拉开差距的地方:
- 第 3 条(maker-checker 分离):让模型 A 写、模型 B 查。B 可以用更强的模型或更高的 reasoning effort。这个"自我审查会放水"的问题在学术界叫 self-grading bias,是真实存在的。你让写代码的同一个模型自己 review,它会系统性地高估自己。
- 第 5 条(Verifier 是闸门):没有 verifier 的 loop = 烧钱机器。这就是为什么文章反复强调「没有东西能让活儿挂掉,loop 就只是空转」。
3. 两个被严重低估的指标/概念
cost per accepted change(每个被采纳改动的成本)
作者点出的这个指标,比"花了多少 token"重要十倍。它的本质是:loop 的产出要经过人工 gate,只有被你采纳的才算数。如果你的 loop 跑出 10 个 PR、你 merge 了 3 个、扔了 7 个——那 7 个的 token 成本是纯浪费。接受率 < 50%,loop 就是负 ROI。
这点很多 demo 视频不会告诉你:他们展示"AI 自动改了 100 个文件",但不说其中多少是真有用、多少是幻觉式重构。
Ralph Wiggum loop(静默烧钱)
Geoffrey Huntley 提出的这个概念,我验证过是真实的——它指 agent 过早宣布"完成"然后退出,但 loop 调度器不知道,继续触发、继续花钱、产出为零。这是 loop 工程里最阴险的失败模式:它不报错,只在你睡觉时悄悄扣账。
防御手段就是文章说的两条:硬迭代上限 + 真正的 verifier 闸门。
4. DIY 对比:手搓 loop vs Claude Code 原生 vs Mira
把文章隐去的选项补回来,这才是完整的决策图景:
| 维度 | 手搓(cron + LLM API + 自写 verifier) | Claude Code 原生(/loop + skill + subagent + hooks + MCP) | Mira(Telegram bot) |
|---|---|---|---|
| 搭建成本 | 高(要写代码、托管、鉴权) | 中(会写 prompt + skill 即可) | 低(发消息描述需求) |
| 可控性 | 完全 | 完全 | 黑盒(跑在别人服务器) |
| 成本透明 | 完全透明(你直接付 API) | 完全透明(你自己的 API key) | 不透明(“免费"背后接的是付费 LLM API) |
| 数据安全 | 自己掌控 | 自己掌控 | 发给第三方 |
| 适合任务 | 重型、定制化、生产级 | 中重型工程、coding | 轻量生活/办公自动化 |
| 生态连接 | 自己接 | MCP(官方标准,越来越丰富) | Composio 500+ app |
被作者刻意忽略的竞品(沉默的证据):
- Claude Code 官方 Telegram channels(@trq212,Anthropic Claude Code team,2026-03-19 发布)——用 Telegram 直接控制 Claude Code session,比 Mira 更深度集成、更可控
- ChatGPT 的 scheduled tasks / Operator
- n8n、Zapier AI、Make(成熟的工作流自动化平台)
- Cursor、Replit、Devin(coding agent)
作者把这些全跳过、只推 Mira,是这篇文章最大的利益相关偏倚。
5. 选型决策框架
| 你的场景 | 该用什么 |
|---|---|
| 写代码、改代码库、跑测试 | Claude Code 原生(/loop + subagent + verifier)——你已经有,不需要 Mira |
| 重复性工程任务,每周≥1次,有客观成功标准 | 搭正式 loop(四条全满足才搭) |
| 一次性任务 | 一个好 prompt,别上 loop |
| 轻量生活/办公自动化(发邮件、记账、摘要) | n8n/Zapier/Make,或 Mira 这类产品——但先想清楚数据要不要发给第三方 |
| 质量是主观口味(写作、设计) | 别用 loop,人类判断还是赢 |
6. 诚实的限制
- 文章的流程图被读者 @TerjeJacobsen 当场抓出方向画错(loop 错误地快速终结在 cost 框)——细节上不够严谨。
- “一个工程师六天重写整个代码库"是真实案例趋势(AI 辅助大规模迁移确实在发生),但六天这个数字缺乏出处,可能 cherry-pick。
- Mira 的"免费"是获客话术:它接的是 GPT/Claude/Gemini 的付费 API,羊毛出在羊身上。
- loop 工程的真问题是可观测性(怎么知道一个跑了 8 小时的 loop 是在进步还是在空转),文章几乎没碰。
精选评论
@SundarR02215714(1 赞):一个"蠢问题”——Unix 和 Linux 时代他们不就在跑 batch jobs 了吗?
@TerjeJacobsen(5 赞):可惜那张流程图把整个 loop 快速终结在了 cost 框上 😂😂 发图之前检查一下箭头方向吧,这张……可以更好。
@curonianai(1 赞):Anatoli 的 18 个步骤里有 7 个是真技术:Projects + 项目指令、让 Claude 先问你问题、陪练式攻击再钢人证、通过样本分析克隆风格、元提示、输出长度+开场白控制、每个话题开新对话。
@Ren_Web3AI(1 赞):搭建一个持久化系统、而不是每次从零开始,是唯一的工作方式。终极的"适应或灭亡"操作,是把指令抽象成外部的 SKILL.md 文件——这样你的系统能瞬间热插拔到 Gemini 或 Ollama。
@wu96318(7 赞):我才刚开始用 Claude,让它根据我旧网站重建一个。结果惊人。我连 CSS 和 JavaScript 都不懂,却得到了一个专业的艺术网站。
三、苏格拉底对话:loop 到底新在哪,我要不要上 Mira?
学生(尾巴):这篇文章把 loop 说得神乎其神,又是 Claude Code 又是 Mira 的。但底下那条评论说得对——这不就是 Unix 时代的 batch job + cron 吗?AI loop 到底"新"在哪?
老师:好问题。你抓住了一个很多人没看到的点。来,我们拆一下:cron job 和 AI loop,循环的外壳是不是一样的?
学生:外壳一样——都是"按时间间隔,重复执行一段逻辑”。
老师:对。那它们的判断"这一轮成功没成功"的逻辑,有什么不同?
学生:cron job 是确定的——脚本退出码是 0 就是成功,非 0 就是失败。但 AI loop……它的"成功"是模型自己说的算?比如它说"代码改好了",就算成功?
老师:这就是全文最关键的那一刀。文章说"Verify 是 loop 的心脏",你想想,如果验证器是 AI 自己、而不是一个硬测试,会发生什么?
学生:那就是它给自己作业打分……模型会放水,说自己成功了,然后下一轮还接着跑?
老师:完全正确。这就是 Geoffrey Huntley 说的 “Ralph Wiggum loop”——AI 过早宣布完成、loop 却继续触发、继续烧钱、产出为零。所以你看,AI loop 相比 cron job 真正"新"的,只有一样东西:把"判断任务是否完成"这件事,从确定性代码,换成了模型。
学生:那这个"新",到底是好是坏?
老师:取决于你有没有 verifier。如果你有一个硬闸门(测试通过、类型检查过、数字达标),那 AI loop 就是真的进步——它能处理 cron 处理不了的模糊任务。如果你没有硬闸门,让它自己评判自己……
学生:……就是一台烧钱机器。那好,假设我有 verifier,我也搭起了 maker-checker,我自己已经用 Claude Code 的 skill 和定时任务在跑了。那我还需要 Mira 吗?
老师:你刚才自己回答了——你已经在用更正统的方式做 loop 了。那我问你:Mira 比你这个方案,多给了你什么,又拿走了什么?
学生:多给了"不用写代码、发条消息就能建自动化"。拿走了……可控性、成本透明、数据安全。因为我的活儿跑在它服务器上、用的是它接的 API。
老师:而且你还漏了一个——作者没告诉你的选项是什么?
学生:官方的 Claude Code Telegram channels?2026 年 3 月 Anthropic 自己发的那个?
老师:对。那你觉得,一个作者把 Mira 和 Claude/GPT 并列、却只字不提官方更深度集成的方案,意味着什么?
学生:……他和 Mira 有利益关系。这篇不是中立推荐,是软广。
老师:这就是我想让你带走的判断力——任何把"概念科普"和"特定产品"焊在一起的文章,先问一句:被省略的那个官方/开源方案是什么? 那个沉默的选项,往往才是答案。留给你的问题:你自己的生活/工作里,有没有一个任务,既每周重复、又有客观成功标准、又能端到端自动化?如果有,它才是你该认真搭 loop 的地方;如果没有,一个好 prompt 就够了。
四、个性化洞察
基于你 QA 工程师 + 重度 Claude Code 用户 + 已有自己的 skill/自动化体系 的身份,这篇文章对你的价值是验证性的、不是启发性的——它讲的"重版本 loop",你已经在做了:
你不需要 Mira,你已经是"重版本 loop"的实践者。 你日常用的就是文章说的「skill(SKILL.md)+ automation(scheduled tasks / 定时任务)+ sub-agents(多 subagent 并发)+ verifier(你 QA 背景,测试自闭环就是你的闸门)」。文章 B 层推的 Mira 是给"不会写代码、想要轻量生活自动化"的人,不是给你。你可以怎么做:把这篇文章的「五大 building blocks」当 checklist,审计你现有的 skill 体系——你哪个 skill 缺了 verifier 闸门?哪个该拆成 maker-checker 双 agent?这是你能直接落地的改进点。
cost per accepted change 这个指标,值得你纳入 skill 评估。 你有 quality-eval skill,可以加一个维度:一个 loop/skill 跑出来的结果,你的采纳率是多少?你可以怎么做:在你那些重复性 skill(比如 follow-builders、ai-news-digest)上加"人工采纳率"统计,低于 50% 的就该加 verifier 或换更强模型,而不是让它空转烧 token。
Ralph Wiggum loop 直接命中你踩过的坑。 你 CLAUDE.md 里那条"禁止裸启动常驻进程"的规则、cleanup-qmd-mcp-orphan 脚本——本质就是在防"loop 静默失败堆积"。这篇文章给了你一个理论框架来命名这个问题:不是"孤儿进程",而是"verifier 闸门缺失导致的静默烧资源"。下次你再写定时任务,先问:它有没有硬迭代上限 + 真正的成功判断?没有就别上 cron。
最有行动价值的一条:把「先手动证明 → 硬化 → 再自动化」写成你的默认流程。 文章这个"顺序"洞察是全文最被低估的——你跳过手动验证直接上自动化的地方,就是你半夜被叫起来 debug 的地方。你可以怎么做:在你 skillify(提取技能)的工作流里,加一道前置门——任何要固化为自动化 skill 的流程,必须先手动完整跑通 3 次并记录失败点,才允许自动化。这能砍掉一大半"上线即翻车"的自动化。
元层启示:这篇文章本身是一个值得你拆解的内容产品范本。 它的"干货引流 + 产品转化"结构、把自家产品和巨头并列的修辞、用真概念给软广背书的手法——是技术自媒体的成熟套路。你可以怎么做:你做技术自媒体时,这个结构可以正向用(你的干货是真的、转化的是你自己认可的产品),也可以反向用(看到别人文章时,能 3 秒识别出"A 层干货 / B 层软广"的分界线,不被带节奏)。文章 905 万浏览、4352 赞,证明这套结构确实有效——值得你研究它的转化设计,而不是照单全收它的结论。