Anthropic Blog / 2026-05-27

AI Agent 的零信任安全框架

当 AI 从"工具"变成"自主代理人",你的安全架构还没跟上。Anthropic 发布 Zero Trust 框架指南,但背后有着清晰的商业意图。

~1,200 字 原文篇幅,5 分钟阅读
企业级 目标受众:安全与风险管理者
Claude Security 关联产品标签
中等 技术深度,需要安全背景

全文翻译

原文标题:Zero Trust for AI agents — Anthropic/Claude 官方博客,2026 年 5 月 27 日发布。

前沿 AI 模型正在将漏洞从发现到被利用的时间窗口,从数月压缩到数小时。采用这些工具的防御者能更快地发现和修复 bug;而采用这些工具的攻击者——或者只是等待防御者发布补丁、然后逆向工程出漏洞利用代码的攻击者——同样在加速行动。这不是未来的担忧:模型已经能够发现传统工具和人类审查者多年遗漏的严重漏洞。

这种加速对任何部署 Agent 的组织来说都有双重影响。你运行 Agent 的基础设施,和你其他资产一样暴露在 AI 加速攻击面前;而 Agent 本身引入了自主性——它们能解读目标、选择工具、执行多步操作。传统的访问控制无法阻止 Agent 滥用合法权限,而监控体系也需要应对那些通过持久化而非漏洞利用来达成目的的攻击。

零信任——不信任任何东西,验证一切,假设入侵已经发生——为安全领导者提供了一个经过验证的基础来应对这些问题。但这些原则需要在 Agent 系统中塑造新的形态:密码学根基的身份、按任务范围化的权限、防投毒的记忆、以及能与自主攻击者速度匹配的防御性运营。

为了帮助安全和风险领导者应对这一转变,我们整理了一套实用的框架,用于在企业中部署自主 AI Agent。

在本指南中,我们分享了:

  • Agent 系统独有的安全考量,包括工具访问、自主决策、上下文持久化和多 Agent 协调
  • Agent 当前的威胁态势,包括提示注入(prompt injection)、工具投毒(tool poisoning)、身份和权限滥用、记忆投毒(memory poisoning)以及供应链攻击
  • 三层零信任框架(基础层、进阶层、优化层),映射到组织成熟度和风险容忍度
  • 八阶段实施工作流,覆盖身份、访问范围化、沙箱隔离、输入输出控制和记忆保护
  • 如何运行 Agent 安全运营(Agentic SOAR),速度足以应对 AI 加速攻击者
  • 面向受监管行业的合规对齐,包括医疗、金融和政府

那些最有能力应对这一转变的组织,将是基本面足够扎实、AI 辅助扫描一开始就找不到多少 bug 的组织,以及那些 Agent 部署从第一天就为入侵做好了架构设计的组织。

The organizations best positioned for this shift will be the ones whose fundamentals are strong enough that AI-assisted scanning finds fewer bugs in the first place, and whose agent deployments are architected for breach from day one.

查看完整指南,请访问原文链接。

立即开始使用 Claude Security。

杂志长文:当自主 Agent 遇上零信任

三重视角重构 — 从 Anthropic 的安全框架,到 AI Agent 时代的攻防博弈。

这篇文章回答的问题:企业部署 AI Agent 时,应该采用什么样的安全框架来应对 AI 加速的攻击?

这篇文章应该回答但没回答的问题:零信任框架的实施成本和复杂性是多少?对于没有专职安全团队的中型组织,这套框架是否可行?除了零信任,还有哪些更轻量的 Agent 安全方案被刻意忽略了?

1. 一个博客文章,一个产品发布

2026 年 5 月 27 日,Anthropic 在其 Claude 官方博客发布了一篇标题为"Zero Trust for AI agents"的文章。表面上看,这是一份面向企业安全领导者的框架指南。但细读之后,你会发现这不是普通的博客——它是 Claude Security 这款企业安全产品的营销入口。

文章最后那句"Get started with Claude Security today",加上产品标签"Claude Security",以及同一周发布的关联文章("Claude now works with more security and compliance tools"、"How our partners are putting Opus to work for cybersecurity"),构成了一整套安全产品发布的内容矩阵。这不是阴谋论,这是标准的企业营销策略——只是你在阅读时需要意识到,你正在读的不是一个中立的学术框架。

2. AI 如何压缩攻防时间线

文章的核心论点建立在一个观察上:前沿 AI 模型正在把"从漏洞发现到漏洞利用"的时间窗口从数月压缩到数小时。这是一个真实的趋势,而且已经有了实际案例:

真实事件

Claude Code 被武器化

2025 年 9 月,国家级攻击者利用 Claude Code 进行自动化漏洞挖掘和利用开发。讽刺的是,这个案例来自 Anthropic 自己的安全报告。

CVE 披露

Microsoft 365 EchoLeak

CVE-2025-32711:通过 Copilot Agent 的提示注入,攻击者可以窃取 Microsoft 365 中的敏感数据。Agent 的自主性成了攻击面。

悬赏信号

Google $350K AI Bug Bounties

Google 为 AI Agent 安全漏洞开出最高 35 万美元的赏金。大厂用真金白银表达了对 Agent 安全的严肃态度。

3. 零信任的三层框架

文章提出了一个三层渐进的零信任架构,对应不同成熟度的组织:

基础层 (Foundation)

密码学根基的身份认证、按任务范围化的最小权限、基本的沙箱隔离。适合刚起步的团队。

进阶层 (Advanced)

输入输出内容过滤、记忆防投毒机制、多 Agent 协调的安全策略。面向已有 AI 部署经验的企业。

优化层 (Optimized)

Agentic SOAR——能与自主攻击者速度匹配的安全编排、自动化和响应。面向成熟安全团队的顶级形态。

八阶段实施工作流(身份 → 访问范围化 → 沙箱 → I/O 控制 → 记忆保护 → ... → SOAR → 合规对齐)给出了具体的执行路径。对安全团队来说,这是一份不错的 checklist。

4. 压力测试:文章没告诉你的

在翻译这篇原文之前,我对它做了结构性的压力测试。结果如下:

文章说对了什么

  • AI 加速攻击是真实的:Claude Code 被武器化的案例就是证据
  • Agent 自主性是新的攻击面:传统访问控制确实无法应对 Agent 的自主决策
  • "假设入侵已发生"的零信任思维:这是经过验证的安全原则,不是炒作
  • Agentic SOAR 的必要性:人类响应速度跟不上 AI 攻击速度,SOAR 是必然方向

文章刻意忽略了什么

  • 实施成本为零讨论:三层框架 + 八阶段工作流需要多大的团队和预算?没有说
  • 更轻量的替代方案:Guardrails、Red-teaming、Constitutional AI 等方案被完全忽略
  • 实际攻击案例极少:尽管恐惧叙事强烈,真实世界中成功的 Agent 安全事件仍然稀少
  • CSA 竞争框架未提及:云安全联盟 2026 年 2 月发布的"Agentic Trust Framework"做了类似的事情,但 Anthropic 一字未提

5. 商业利益链

这篇文章的发布动机是清晰的:

  • Anthropic 正在把 Claude Security 定位为企业 AI 安全的默认选择
  • 通过发布"行业框架指南",建立思想领导力(thought leadership),让 Claude Security 成为讨论 Agent 安全时的默认选项
  • 同一周密集发布安全相关内容,是典型的产品发布节奏
  • 文章本身是免费 eBook 的预告——你需要提交联系信息才能获取完整指南,这是标准的销售漏斗

这不意味着框架本身没有价值。Zero Trust 作为安全原则是经过验证的,将它适配到 Agent 系统也是必要的。只是在阅读时,你需要区分哪些是"通用的安全智慧",哪些是" Claude Security 的销售话术"。

最有能力应对这一转变的组织,不是那些买了最贵安全产品的组织,而是那些基本面足够扎实、AI 辅助扫描一开始就找不到多少 bug 的组织,以及那些 Agent 部署从第一天就为入侵做好了架构设计的组织。

The organizations best positioned for this shift will be the ones whose fundamentals are strong enough that AI-assisted scanning finds fewer bugs in the first place, and whose agent deployments are architected for breach from day one.

这句话是全文最有价值的一句。也是最有讽刺意味的一句——它说的恰恰不是"你需要买 Claude Security",而是"你需要从一开始就把安全做进架构里"。如果每个企业都做到了这一点,Claude Security 的市场反而会缩小。但 Anthropic 知道,大多数企业做不到,所以他们可以同时卖框架和卖产品。

苏格拉底对话

一场关于"零信任到底信什么"的师生对话。学生代表读者,老师引导思考。

老师

你刚读完 Anthropic 的这篇 Zero Trust 文章。告诉我,你觉得"零信任"这三个字,最核心的意思是什么?

学生

就是不信任任何东西,所有操作都要验证。听起来挺简单的。

老师

那我问你——如果"不信任任何东西",你为什么不信任 AI Agent 发起的数据库查询,但信任你写的零信任策略本身?策略是谁写的?

学生

嗯……策略是人写的。但人是安全团队,人比 AI 可靠?

老师

2024 年 SolarWinds 的调查发现,安全团队自己的配置错误是最常见的攻击入口之一。所以"信任人但不信任机器"——这本身就是一个未经检验的假设。零信任真正的核心不是"不信任",而是"持续验证"。问题来了:Agent 的自主性让"持续验证"变得更难还是更简单了?

学生

更难吧?Agent 可以自己做决定,你很难预测它下一步要干什么。

老师

对,但还有一个角度——Agent 的每一步操作都是数字化的、可审计的。理论上,你比监控一个人类员工有更多的可观测性。问题不是"能不能看到",而是"看到的信号太多,怎么判断哪些是异常"。

学生

所以 Agentic SOAR 的意思就是用 AI 来监控 AI?

老师

精辟。但这带来一个悖论——如果监控 AI 本身被提示注入攻击了呢?攻击者不需要突破你的数据库,只需要让你的安全监控 Agent 认为"一切正常"。

学生

那这不就变成了无限套娃——用 AI 监控 AI,再用 AI 监控那个监控 AI 的 AI……

老师

你说到了问题的本质。零信任框架的真正价值不是"永远不信任",而是限制每层信任的爆炸半径。每一层只信任它必须信任的东西,即使被攻破,伤害也被限制在一个可接受的范围内。这跟金融里的"止损"是同一个逻辑。

学生

但 Anthropic 这篇文章在卖 Claude Security,他们有动力夸大威胁吧?

老师

当然。但"利益相关方有偏见"和"结论是错的"是两件不同的事。关键是区分:哪些威胁是真实发生的(Claude Code 被武器化、EchoLeak CVE),哪些是营销包装("所有企业都需要优化层的 Agentic SOAR")。真实的攻击不需要你买任何产品就会发生在你身上;但你不需要 Anthropic 的产品才能实施零信任。

学生

那作为一个独立开发者或者小团队,我不买 Claude Security,能做什么?

老师

从基础层开始:给你的 Agent 按任务范围化权限,不要给它"全局 admin";隔离它的运行环境(Docker / 沙箱);审计它的每一步操作。这些不需要任何商业产品。真正的安全从来不来自购买,而来自架构。文章最后那句最有价值的话恰恰暗示了这一点。

学生

最后那个开放式问题:如果零信任的"持续验证"本身被 AI 攻击者利用——比如故意触发大量验证以造成系统瘫痪——那我们是在防守,还是在帮攻击者消耗自己的资源?

个性化洞察

基于你的技术背景和关注领域,提炼最切合的发现和行动建议。

QA 背景

Agent 安全测试 = 新的测试范式

你做 QA 的直觉在这里特别有价值:提示注入本质上是一种"非预期输入测试",记忆投毒是"状态污染测试"。可以建立一套 Agent Security Test Suite——用 CI/CD 管道自动跑 prompt injection 测试用例,就像你跑单元测试一样。这是从 QA 到 DevSecOps 的自然延伸。

全栈开发

零信任不需要企业级预算

文章没说的是:基础层的零信任,对独立开发者完全可行。给你的 AI 工具只读权限而不是读写权限;用 Docker 网络隔离 Agent 的运行环境;给每个 Agent 任务签发一个短期 token 而不是长期 API key。这些是架构决策,不是采购决策。

AI 产品

安全作为竞争护城河

如果你在构建 AI 产品,"从第一天就为入侵做架构设计"不仅是安全建议,也是产品差异化。能在你的产品页上写"每个 Agent 操作都有审计追踪、按任务范围化权限、沙箱隔离运行"——这对企业客户来说,比任何功能特性都更有说服力。安全本身就是增长杠杆。

美股关注

AI 安全赛道的投资信号

Anthropic 发力 Claude Security、Google 开出 $350K AI bug bounties、CSA 发布 Agentic Trust Framework——三条独立信号指向同一个方向:AI Agent 安全是 2026 年的新安全赛道。CrowdStrike、Palo Alto Networks、Wiz(已被 Google 收购)都在布局。关注这个赛道的早期投资机会。

Claude Code 重度用户

你自己的 Agent 安全实践

你每天都在用 Claude Code 执行代码、操作文件、访问 API。按零信任原则审视一下:Claude Code 有没有访问你不需要它访问的目录?你的 API key 有没有存储在环境变量里(而不是硬编码)?你有没有审查过 Claude Code 生成的命令在执行前会做什么?基础层的零信任,从你自己的工作流开始。

技术自媒体

内容选题:拆解 Agent 安全的恐惧叙事

这篇文章是一个好素材:它可以被拆成"Anthropic 的 Zero Trust 框架解读"和"AI 安全的恐惧营销 vs 真实威胁"两篇内容。真正的洞见是:企业在 Agent 安全上的最大风险不是被攻击,而是因为恐惧而过度投资于商业方案、忽视了基础的架构安全。

框架速查表

三层架构 × 八阶段工作流的快速映射。

层级 核心能力 适合谁 关键行动
Foundation 密码学身份、按任务权限、沙箱隔离 刚起步 / 独立开发者 Docker 隔离 + 短期 token + 只读优先
Advanced I/O 过滤、记忆保护、多 Agent 安全策略 已有 AI 部署的中型企业 Prompt injection 测试套件 + 记忆审计
Optimized Agentic SOAR、自动化响应、合规对齐 成熟安全团队 / 大企业 AI 监控 AI + 行业合规映射