Anthropic · Claude Opus 4.8 · 2026.05

Claude Code Dynamic Workflows

从单兵到千军万马的编排革命——一个 AI 拆解任务、写出 JavaScript harness、启动上千个并行 subagent，再用确定性逻辑合成结果。性能提升 90.2%，token 成本暴涨 15 倍。

90.2%性能提升（内部评测）

15xToken 成本（vs 单次 chat）

1,000最大并行 subagent 数

30x同一任务 token 花费方差

速览卡片

只有 2 分钟？读第一、五、九节。10 分钟？全部。

Anthropic 给 Claude Code 装上了"自己写脚本编排自己"的能力。核心模式：fan out → reduce → synthesize，可选 adversarial verification。竞品无同类能力，但模式本身不构成护城河。

指标	数字
发布时间	2026 年 5 月底，随 Claude Opus 4.8
性能提升	90.2%（内部评测，breadth-first research）
单 agent token 成本	~4x chat
Agent teams	~7x chat
Multi-agent 系统	~15x chat
同一任务 token 方差	最高 30x
并发上限	16 个 subagent（总计可达 1000）
编排语言	JavaScript

这是怎么回事

Claude Code 从"单 agent 编码工具"到"多 agent 编排平台"的架构跃迁。

核心机制

任务 → 脚本 → 执行

你用自然语言描述任务，Claude 判断需要 workflow，当场写一个 JavaScript 编排脚本。脚本用特殊 harness 函数生成 subagent、协调执行、收集结果。中间结果存在脚本变量里，不污染你的对话上下文。最终只把合成答案送回你的会话。

三层架构

Subagents → Teams → Workflows

三层之间的关键区别不是规模，而是"谁持有计划"。前两层是 Claude 即时决策，workflow 是脚本预先编码。编排层的确定性大幅提升——虽然执行层仍然是非确定性的。

Ultracode

自动编排模式

Anthropic 还推出了 Ultracode 设置级别，等于 xhigh reasoning effort + 自动 workflow 编排。开了之后，Claude 会对每个有实质性的任务自动规划 workflow。

Subagents（最早）

每轮几个，跑在父上下文内，摘要返回。轻量、便宜。~4x token 成本。

Agent Teams（2026 中）

3-5 个长生命周期 peer，独立上下文，共享任务列表，点对点消息。~7x token 成本。需要环境变量开启。

Dynamic Workflows（最新）

脚本驱动，上限 1000 个 subagent，中间结果存在 JS 变量里。~15x token 成本。目前最高 tier。

关键概念速查

Dynamic Workflows 术语表，每个概念附带"为什么重要"。

术语	解释	为什么重要
Dynamic Workflow	Claude 根据任务描述动态生成的 JavaScript 编排脚本	核心新能力，让 Claude 为每个任务定制执行环境
Harness	执行脚本的运行时环境，包含 spawn、coordinate 等特殊函数	抽象层，把编排逻辑和执行逻辑分开
Subagent	被生成的独立工作单元，每个有自己的上下文窗口	最小执行单元，上限 16 并发 / 1000 总计
Fan Out, Reduce, Synthesize	并行分发 → 独立处理 → 合成结果	跨三层架构的通用模式，类似 MapReduce
Adversarial Verification	独立 skeptic agent 投票质疑每个发现	对抗锚定偏差的质量门控
Phased Execution	任务拆分为顺序阶段，阶段内并发执行	控制复杂度的关键，避免一次性启动所有 agent
Model Routing	每个 subagent 可以指定不同模型	成本优化的主要手段
Worktree Isolation	Subagent 在独立 git worktree 中运行	防止文件冲突，支持并行编辑

技术解剖

架构核心、执行流程、分阶段执行、对抗性审查、上下文窗口工程。

脚本驱动编排

确定性的编排 + 非确定性的执行

核心创新不在 AI 本身，而在编排层的确定性。传统 multi-agent 让 LLM 自己协调，问题是 LLM 的判断力不稳定。Dynamic Workflows 换了个思路：Claude 写脚本，脚本 deterministic 地执行。编排逻辑是 JavaScript，可调试、可复现、可分享。

传统方式像一群人开没有议程的会。Workflow 像先写好会议议程，每个人按议程发言。讨论本身可能跑偏，但议程是清楚的。

执行流程

六步管线

1. 用户提交自然语言任务
2. Claude 判断需要 workflow，生成 JS 脚本
3. 脚本定义分阶段执行计划
4. 运行时按阶段 spawn subagent
5. Subagent 结果存入脚本变量
6. 最终合成，送回对话上下文

分阶段执行

工程中最重要的设计

Workflow 不是一次性启动 1000 个 agent，而是把任务拆成阶段。比如 /deep-research 的五个阶段：scope → search → fetch → verify → synthesize。每个阶段完成后才启动下一个。阶段内才是并发的。解决两个问题：成本控制 + 依赖管理。

对抗性审查

GAN 思想做质量门控

每个 claim 触发 N 个独立 skeptic agent 投票质疑。内置 /deep-research 用 3 票制，需要 2 票 refutation 才能推翻一个 claim。思想类似 GAN：一个 agent 生成，一个 agent 质疑，对抗中逼近真相。比单个 agent 自我检查有效得多。

上下文窗口工程

不是模型变聪明了，是你能塞进更多信息了

单个 Claude 的上下文窗口是 200K token，复杂任务很快填满。Multi-agent 的做法：每个 agent 独立上下文窗口；中间结果存在脚本变量里；Lead agent 用 memory persistence 存活上下文截断。Anthropic 工程团队发现，token 使用量单独解释了 BrowseComp 评测中 80% 的性能差异。

方面	Subagents	Agent Teams	Dynamic Workflows
编排方式	Claude 即时决定	半结构化（共享任务列表）	显式 JS 脚本
规模	1-5 个/轮	3-5 个 peer	上限 1000
上下文共享	摘要返回父级	共享任务列表 + P2P 消息	脚本变量
确定性	低	中	高
模型选择	继承父级	每个 teammate 可配	脚本中逐个指定
通信模型	子 → 父	teammate ↔ lead ↔ teammate	脚本持有所有结果

成本现实

数据很残酷

来自 Anthropic 自己的工程博客和成本文档：单 agent ~4x chat token，Agent teams ~7x，Multi-agent ~15x。同一任务重复运行的 token 消耗方差最高 30x。花更多 token 不等于更好的结果。准确率在中间成本区间达到峰值，继续加 token 反而饱和甚至下降。前沿模型无法可靠预测自己的 token 成本（最好的 Pearson 相关性只有 0.39）。

为什么重要

直接影响、竞品横向对比、谁受益、谁被边缘化。

Multi-agent 架构不是锦上添花，是唯一能让 AI 处理超出单个上下文窗口信息量的方法。升级到 Sonnet 4 带来的性能提升比在 Sonnet 3.7 上翻倍 token 预算还大。模型质量 + 信息量 > 纯堆 token。

能力	Claude Code	Cursor	Copilot	Windsurf	Codex
Multi-agent 编排	三层	无	无	有限	无
脚本驱动编排	JS 脚本	无	无	无	无
最大并行 agent	1000	N/A	N/A	N/A	N/A
独立上下文窗口	每个 agent	共享	共享	共享	单一
对抗性审查	内置	无	无	无	无
点对点消息	Agent Teams	无	无	无	无
Token 成本透明度	差（30x 方差）	订阅制	订阅制	订阅制	按用量

谁受益

Anthropic — token 收入直接乘以 4-15 倍，生态系统锁定
高端用户 — 复杂研究、大规模重构、安全审计等真正需要并行化的场景
新兴 subagent 生态 — subagents.cc 已经有 100+ 预制 agent

谁被边缘化

预算有限的用户 — token 成本是惩罚性的
需要确定性、可重复结果的团队 — 30x 方差无法接受
做日常编码的开发者 — 开销大于收益

OpenAI Codex 的 /goal 走的是"深度递归"路线——一个 agent 反复迭代直到目标达成。Claude 的 dynamic workflows 走的是"广度并行"路线——多个 agent 同时从不同角度攻击问题。两种哲学：一个信坚持，一个信人海。

别高兴太早

三个根本性问题，发布文章里轻描淡写了。

问题一

Token 成本不可预测

30 倍方差不是"波动大"，是"完全失控"。你无法在执行前预算。前沿模型预测自己 token 成本的相关性只有 0.39，基本等于瞎猜。这直接堵死了企业级采纳的可能性——没有 CFO 会批准一个成本不可预测的工具。

Anthropic 自己说："best practices are still developing." 翻译成人话："我们也没搞清楚怎么用。"

问题二

花得多不等于做得好

准确率在中间 token 成本区间达到峰值。继续加 token，结果饱和甚至下降。学术研究（arXiv:2604.02460）也挑战了这一点：在同等 token 预算下，单 agent 在多跳推理任务上可以匹配 multi-agent 系统。90.2% 的性能提升是 breadth-first research 任务的特例，不是通用规律。

问题三

协调复杂度被低估

Agent teams 是实验性的，没有 session resumption，同步执行是瓶颈，两个 teammate 编辑同一文件会导致覆盖，一次只能跑一个 team，不能嵌套。这不是"feature request list"，这是"生产环境不可用"的信号。

不适合的场景	原因
日常编码	写个函数、改个 bug——单 agent 足够，workflow 是过度工程
需要确定性输出的任务	CI/CD、合规审查——30x 方差无法接受
预算敏感的项目	token 成本可能超预期 30 倍
紧密耦合的任务	拆不开的——协调开销大于并行收益
新手用户	multi-agent 的调试门槛极高

历史不会简单重复

但会押韵。MapReduce、Unix 管道、微服务、Brooks 定律——旧智慧的新面孔。

MapReduce（2004）

20 年前的分布式智慧

Google 的 MapReduce 论文定义了"fan out, reduce"模式。Dynamic Workflows 就是 AI agent 版的 MapReduce。核心洞察不变：把计算移到数据旁边，不要把数据全搬到计算旁边。

Unix 管道（1970s）

"做好一件事"

Doug McIlroy 的哲学。每个 subagent 是一个专用工具，只做一件事。JavaScript 脚本就是 pipeline，把专用工具串起来。50 年前的设计原则依然适用。

微服务（2010s）

单体 → 微服务的老路

每个 agent 是一个微服务，有自己的上下文（状态）。编排脚本是 service mesh。同样的挑战也出现了：分布式调试、错误传播、协调开销、"不是所有东西都适合拆开"。

Brooks 定律的警告

加人不等于加速

"给延期的软件项目加人只会让它更延期。" Multi-agent 版本：给有依赖关系的任务加更多 subagent 不会更快——协调开销增长得比并行收益快。Anthropic 自己的数据显示 5-6 个 subagent 之后边际收益递减。

趋势预判：短期（0-3 月）— Power user 疯狂实验，token 消耗飙升，社区涌现 workflow 市场。中期（3-12 月）— Token 成本优化成为主要产品方向（预算控制、预测性成本、模型路由）。长期（12+ 月）— Multi-agent 成为 AI 工具的标准配置，差异化的关键从"能不能做"转向"成本可不可控"。

模型路由：用对人做对事

目前最实用的成本优化策略——别用 Opus 做格式化，也别用 Haiku 做系统设计。

Haiku

简单 subagent

格式化、搜索、摘要。快速、便宜，适合高吞吐量低复杂度任务。

Sonnet

Team 协调

生产环境工作、中等复杂度推理。性价比最优的中间层。

Opus

复杂决策

复杂架构决策、多步推理、需要深度理解的任务。贵，但值。

结论

Dynamic Workflows 是 AI 编排的 MapReduce 时刻。方向对了，但执行和成本问题还没解决。

核心洞察

上下文窗口工程是 multi-agent 解决的核心问题，不是模型变聪明了
确定性编排 + 非确定性执行的分层是正确的架构方向
对抗性审查比自我检查有效得多，是质量保障的关键创新
竞品横向对比中 Claude Code 目前唯一提供脚本驱动的大规模编排

关键风险

30x token 成本方差让企业级采纳几乎不可能
花得多不等于做得好，multi-agent 的边际收益有明确上限
Fan out → reduce → synthesize 不是专利，竞品可复制
Bun 重写案例的速度令人印象深刻，但质量存疑——速度有了，好代码不保证

Multi-agent 编排是 AI 工具演进的必然方向。但"必然"不等于"已经到来"。Dynamic Workflows 打了个样，展示了可能性，也暴露了代价。真正的竞争不在"谁能编排更多 agent"，而在"谁能让 agent 的产出可预测、可控制、可负担"。