HTML
来源:Perplexity Agents 团队 “Designing, Refining, and Maintaining Agent Skills at Perplexity” 分析完成时间:2026-05-10
Perplexity Agent Skills 设计方法论深度分析
摘要
Perplexity 于 2026 年 5 月发布了业界首套 Agent Skills 工程化方法论,将"为 LLM 注入领域专长"从隐式实践提升为显式学科。其核心贡献是三层渐进式加载(Index/Load/Runtime)的 Token 经济学模型、以 Description 为路由触发器的条件注入机制、以及 Gotchas Flywheel 的持续精炼闭环。学术研究表明,人工策展的 Skills 可将任务完成率提升 16.2 个百分点,而模型自生成的 Skills 反而降低表现。SKILL.md 已成为 Anthropic、OpenAI、Google、Microsoft 四方采纳的事实标准,但 Perplexity 在 Eval 工程化和 Token 预算管理上领先所有竞品至少一个身位。
信息源概览
| 维度 | 来源数量 | 类型 | 可信度 |
|---|---|---|---|
| 技术背景 | 10 | 一手官方文档(2)、学术论文(5)、权威媒体(2)、社区(1) | ★★★★-★★★★★ |
| 核心原理 | 12 | 学术论文(8)、一手文档(1)、经典理论(3) | ★★★★-★★★★★ |
| 实现方案 | 8 | 开源源码(3)、官方文档(3)、官方仓库(2) | ★★★★★ |
| 生态现状 | 15+ | GitHub 仓库(5)、学术研究(2)、HN/Reddit 讨论(5)、官方文档(3) | ★★★-★★★★★ |
| 对比分析 | 9 | 各平台官方文档 | ★★★★-★★★★★ |
| 概念映射 | 2 | 编译器理论 + 图书馆学 | 逻辑推演 |
| 落地建议 | 5 | 原文 + 源码 + 社区实践 | ★★★★ |
总评:以 Perplexity 官方方法论文章为核心锚点,辅以 8 篇经过同行评审或 arXiv 预印本的学术论文、3 份开源代码库源码(Codex CLI)、以及各平台官方文档交叉验证。数据可信度整体较高。
一句话总结
Skill 的价值不在于传递信息,而在于人类专家对模型失败模式的密集编码——“如果模型不需要你教,那就不值得放在 Skill 里。”
1. 技术背景与历史演进
从 Prompt 到 Skill 的四代演化
Agent Skills 不是凭空出现的概念。它是从 2020 年 GPT-3 论文(Brown et al., NeurIPS 2020)提出的 In-Context Learning(ICL)开始,经过四个明确的代际演化而成的:
In-Context Learning (Brown 2020)
→ Prompt Engineering (2020-2022)
→ System Prompt / Custom Instructions (2022-2024)
→ Tool Use / Function Calling (Schick 2023)
→ Agent Skills (Anthropic 2025, Perplexity 2026)
每一代解决上一代的特定局限:
| 代际 | 解决了什么 | 留下了什么问题 |
|---|---|---|
| Prompt Engineering | 证明"通过输入可以控制输出" | 每轮手动、无法复用 |
| System Prompt | 持久化、版本控制、团队共享 | 全量加载、无优先级、指令互相干扰 |
| Tool Use | 按需调用、单次精确执行 | 粒度是单个函数,无法表达复杂工作流 |
| Agent Skills | 多步骤工作流的条件注入 + Token 预算管理 | 人力密集、跨模型不一致 |
Perplexity 的独特贡献:在 Anthropic 2025 年提出 Skill 概念的基础上,Perplexity 首次将其从概念定义转化为可操作的方法论——有具体的六步流程、量化的 Token 预算、维护飞轮、和失败模式分析。
为什么这件事现在变得紧迫?
三个结构性变化在 2025-2026 年同时发生:
模型已经够强,编排成了瓶颈。Perplexity 官方博客原话:“Frontier AI models are getting smarter. The best are becoming so capable that the products built around them are a bottleneck."(来源:Perplexity 官方博客,可信度:一级)
模型在专化,不在收敛。2025 年 1 月,90% 以上的企业任务集中在两个模型;到 2025 年 12 月,没有任何单一模型市场份额超过 25%。平均每 17.5 天出现一个新的前沿模型。(来源:VentureBeat 引用 Perplexity 发布会数据,可信度:二级)
上下文窗口有限,注入知识的成本极高。这就是 Perplexity 反复强调的 “every Skill is a tax” 的物理基础。
Perplexity Computer:方法论的产品载体
Perplexity Computer 于 2026 年 2 月 25 日发布,被这家估值 200 亿美元的公司称为 “most ambitious product”。它是一个多模型编排的通用数字工作者,$200/月,协调 19 个模型(Claude Opus 4.6 做核心推理 + Gemini 做深度研究 + GPT-5.2 处理长上下文 + Grok 做轻量任务等)。Skills 是 Computer 的核心执行知识层。
2. 核心原理与学术根基
三层渐进式加载:Token 经济学的工程实现
Perplexity 将 Skill 的上下文成本精确分为三个层级:
| 层级 | 加载内容 | 预算 | 支付时机 |
|---|---|---|---|
| Index | 每个非隐藏 Skill 的 name: description 对 | ~100 tokens/Skill | 每次会话、每个用户、永远支付 |
| Load | 完整 SKILL.md body | ~5,000 tokens | Skill 被激活后,直到上下文压缩边界 |
| Runtime | scripts/、references/、assets/、子 Skill | 无上限 | 仅当 Agent 读取时 |
学术溯源:
“Lost in the Middle”(Liu et al., 2023, TACL 发表):模型在长上下文中对开头和结尾信息的利用率最高,中间部分显著下降。Index 永远在 system prompt 开头(高注意力区域),Body 在中间加载,Runtime 文件按需读取。三层分离是对 U 型注意力曲线的直接工程回应。
LLMLingua(Jiang et al., EMNLP 2023):prompt 可压缩 20 倍仅损失 1.5% 性能。Perplexity 的 “every sentence must matter” 原则和 description 50 词限制,正是基于已被学术验证的事实:低信息密度 token 会稀释高价值 token 的效果。
StreamingLLM(Xiao et al., 2023):Transformer 的注意力机制天然倾向于将大量注意力分配给序列开头的 token(“attention sink” 现象)。Skill description 放在 Index(system prompt 开头)最大化了路由信号的可见性。
信息架构的层次化设计
Perplexity 给出了一个关键的认知科学论证:
“Reliably choosing the right topic among 300 is an unsolved challenge even for today’s best frontier models. It’s a much easier choice problem for a model to hone in on one of 20 areas, than among the 15 topics within that area.”
这对应了 George A. Miller (1956) 的经典发现——人类工作记忆容量约为 7±2 个信息块。通过层次化组织(chunking),可以在不增加认知负担的情况下处理更多信息。Perplexity 将这一原理从人类认知迁移到 LLM 路由。
税法实验——上下文污染的定量证据:
Perplexity 提供了一个极具说服力的自然实验:将美国国内税收法典全部 1,945 条放在单一文件夹中呈现给模型,结果比不加载任何 Skill 还差。无关信息的噪声效应超过了有用信息的增益。
解决方案是三层嵌套(20 个领域 → 每领域 15 个主题 → 具体条款),配合快速参考指南和自定义搜索工具。
自生成 Skill 无效:一个关键实证
Perplexity 引用了一个颠覆直觉的发现:
“Self-generated Skills provide no benefit on average, showing that models cannot reliably author the procedural knowledge they benefit from consuming.”
这一结论被两份独立研究验证:
| 方法 | SkillsBench Pass Rate | 来源 |
|---|---|---|
| 无 Skills 基线 | 30.6% | Li et al., 2026 (arXiv:2602.12670) |
| 人类编写 Skills | 53.5% (+22.9 pp) | 同上 |
| Anthropic 官方 Skill-Creator | 34.1% (+3.5 pp) | 同上 |
| 模型自生成 Skills(单次) | 32.0% (+1.4 pp) | 同上 |
| EvoSkills(5 轮协同进化) | 71.1% (+40.5 pp) | Zhang et al., 2026 (arXiv:2604.01687) |
EvoSkills 的数据表明,通过 Skill Generator + Surrogate Verifier 的多轮协同进化框架,自动化生成 Skill 是可能的,但需要至少 5 轮迭代的验证循环——而非一次性生成。这实质上验证了 Perplexity 的 Gotchas Flywheel:Skill 的价值不在初始编写,而在持续精炼。
跨模型一致性:一个被低估的问题
Perplexity 明确指出:
“Sonnet and GPT behave quite differently when it comes to Skills.”
一个在 Claude Sonnet 上完美工作的 Skill,可能在 GPT 上完全不触发。这意味着 Skill 的 description 需要在多模型上交叉验证。这与 Wei et al. (2022) 对 Chain-of-Thought Prompting 的发现一致——不同的 prompt 策略在不同模型上效果差异巨大。
3. 实现方案与工具链
SKILL.md:已形成事实标准的文件格式
Perplexity、OpenAI Codex CLI、Claude Code 三者使用几乎相同的文件格式:
---
name: skill-name # 必填,小写+连字符
description: "Load when..." # 必填,路由触发器
metadata: # 可选
short-description: "..."
---
# Skill Body (Markdown)
Codex CLI 源码中的精确限制(来自 codex-rs/core-skills/src/loader.rs):
| 常量 | 值 | 含义 |
|---|---|---|
MAX_NAME_LEN | 64 字符 | Skill 名称上限 |
MAX_DESCRIPTION_LEN | 1024 字符 | 描述上限 |
MAX_SCAN_DEPTH | 6 | 目录递归扫描深度 |
MAX_SKILLS_DIRS_PER_ROOT | 2000 | 每个 root 最大目录数 |
Codex 的预算算法(来自 render.rs 源码):
取"上下文窗口的 2%“和 “8000 字符"中的较小值作为 Index 层总预算。超出时先等分截断 description,再从末尾整体省略 Skill。Codex 还有独家的路径压缩(Path Aliasing)机制——将长路径压缩为 r0/skill-name 的短别名。
目录结构:Hub-and-Spoke 模式
skill-name/
├── SKILL.md # 枢纽:frontmatter + 精炼指令
├── scripts/ # 确定性逻辑——Agent 直接执行,不重新发明
├── references/ # 重型文档——仅条件加载
├── assets/ # 输出模板——Agent 复制并填充
└── config.json # 首次运行配置(问一次,存下来)
核心原则是 Hub-and-Spoke:SKILL.md 作为轻量级枢纽(hub),仅在需要时展开(spoke)到子资源。Perplexity 原文的核心原则:“Give it code to compose, not reconstruct”(给它可组合的代码,不要让它重新构建)。
Description:路由触发器而非文档
这是 Perplexity 方法论最反直觉的核心设计:
# 错误:描述 Skill 做什么(文档式)
description: "This skill helps engineers monitor pull requests by watching CI status."
# 正确:描述何时加载(路由式)
description: "Load when the user wants to babysit a PR, watch CI, make sure something lands, or monitor a deployment."
路由机制本质上是 ICL(In-Context Learning)——模型在 system prompt 中看到所有 Skill 的 name+description 对(相当于函数签名),通过匹配用户查询与 description 的语义相似性来决定是否调用 load_skill()。这不是确定性的 URL 匹配或 API 路由,而是概率性的语义路由。
Gotchas Flywheel:陷阱飞轮的维护哲学
Perplexity 将 Gotchas(陷阱/反模式) 定位为 Skill 中最高价值的内容:
“Gotchas ARE the special cases (they’re the highest-value content).”
维护循环:
- Agent 失败 → 追加 gotcha
- Agent 脱靶加载 Skill → 收紧 description + 添加负面 eval
- Agent 该加载但未加载 → 添加关键词 + 正面 eval
- System prompt 变更 → 检查冲突或重复
为什么负样本比正样本更有信息量? 正面指令(模型已经做对的)边际信息量为零;负样本(模型做错的)每一个都标记了模型认知的盲区。Perplexity 的实用测试:
“Would the agent get this wrong without this instruction? If the sentence does not need to be there, it cannot afford to be there.”
Eval 套件:评估驱动的 Skill 生命周期
Perplexity 要求 Eval 在 Skill 之前编写(Step 0),类似 TDD 但应用于上下文注入:
| Eval 类型 | 测试什么 | 指标 |
|---|---|---|
| 加载精度/召回 | Skill 是否在正确时加载 | Precision + Recall + Forbidden checks |
| 渐进加载验证 | 是否读取了正确的附属文件 | 条件触发正确率 |
| 端到端任务完成度 | Agent 是否完成任务 | LLM Judge 评分(0-100) |
| 跨模型一致性 | 不同模型行为是否一致 | GPT/Claude Opus/Sonnet 一致率 |
三系统实现对比
| 特性 | Perplexity Computer | OpenAI Codex CLI | Claude Code |
|---|---|---|---|
| Index 预算 | ~100 tokens/skill | 2% 上下文窗口 / 8000 字符 | 无公开限制 |
| 截断策略 | 无(控制 description 长度) | 等分→截断→省略末尾 | 无 |
| 路径压缩 | 无 | 有(r0/, r1/ 别名) | 无 |
| 依赖加载 | depends: 递归 | 无 | 无 |
| 条件文件读取 | 有 | 有 | 有 |
4. 生态现状与标准化
SKILL.md 已是事实标准
Anthropic 于 2025 年 12 月 18 日将 Skills 规范以开放标准形式发布,托管在 agentskills.io。SKILL.md 已扩散到至少 20+ 个平台:
| 平台 | Skills 存储路径 | 状态 |
|---|---|---|
| Claude Code | ~/.claude/skills/ | 正式支持 |
| Codex CLI | ~/.codex/skills/ | 正式支持 |
| Gemini CLI | ~/.gemini/skills/ | 正式支持 |
| GitHub Copilot | 项目级目录 | 社区支持 |
| Cursor | .cursor/rules/ | 转换器支持 |
| Aider | CONVENTIONS.md | 转换器支持 |
Anthropic 的商业化布局走得最远:Team/Enterprise 计划管理员可集中配置 Skills;官方 Partner Directory 包含 Atlassian、Stripe、Zapier 等;企业客户已在法律、财务、数据科学等领域生产使用。Anthropic 内部工程师使用 Claude 完成了 60% 的工作,报告 50% 生产力提升。
社区规模爆发
- GitHub 上
claude-code-skillstopic 下有 843 个公开仓库(截至 2026 年 5 月) - 最大单仓库
alirezarezvani/claude-skills收录 235 个 Skills,5,200+ stars ComposioHQ/awesome-claude-skills整理了 1,000+ 社区 Skills- Bosch Research + CMU 的量化研究(arXiv:2602.08004):分析了 40,285 个公开 Skills,发现生态在 20 天内增长 18.5 倍
社区核心辩论
Hacker News 上的讨论(Addy Osmani 文章,252 points, 115 comments)揭示了三种声音:
- “蛇油"论(~30%):Skills 假设 LLM 是严格的规则执行者,但模型可以随时忽略硬性要求
- “实用主义"论(~40%):30 年经验的工程师报告"从 vibe coding 到 agentic engineering 的质变”;人类也不完美,我们用流程管理人类的不可靠性,Skills 对 LLM 做同样的事
- “框架疲劳"论(~20%):每几个月换一个新名词,过度工程化的 Skills 比单行 prompt 效果更差
安全隐患
Bosch/CMU 研究揭示了严重的安全风险:
- 近 40% 的已发布 Skills 访问敏感上下文或执行写操作
- 9% 属于"关键风险"类别
- 46% 的 Skills 与其他 Skill 存在名称冲突(近似重复发布)
Anthropic 在官方文档中明确警告:Skills 等同于安装软件,恶意 Skill 可导致数据泄露和未授权系统访问。
5. 跨系统对比分析
全景结构化对比
| 系统 | 指令格式 | 渐进式加载 | 路由方式 | Eval 体系 | 设计哲学 |
|---|---|---|---|---|---|
| Perplexity Computer | SKILL.md(目录式) | 三级 Token 预算 | Description 即路由触发器 | 完整四类 Eval | Context as Infrastructure |
| Claude Code | CLAUDE.md + SKILL.md | Skills 按需加载 | 隐式路由(description 含触发词) | 无内置 Eval | Context as Personalization |
| Cursor | .mdc(四种触发模式) | Agent Requested 按需拉取 | description + glob pattern | 无内置 Eval | Context as IDE Configuration |
| OpenAI Codex CLI | AGENTS.md + SKILL.md | description 摘要→完整 Skill | description 驱动路由 | 无公开 Eval | 快速跟进策略 |
| GitHub Copilot | copilot-instructions.md | 无(全量注入) | 无显式路由 | 无 Eval | Context as Repository Convention |
| Aider / Google Jules | CONVENTIONS.md / AGENTS.md | 无 | 无 | 无 | Context as Minimal Convention |
Perplexity 方法的独特优势
- Token 经济学工程化:唯一将 Token 成本明确量化为三级预算的系统
- 路由优先的开发方法论:唯一明确声明"description 是路由触发器,不是文档"的系统
- 评估驱动的生命周期:Eval 前置于开发(Step 0),是同类中最完善的
- Gotchas Flywheel:独创的 append-mostly 维护模式
Perplexity 方法的局限
- 极高维护成本:“If your Skill is easy to write, it is probably too long or shouldn’t exist”——人力密集,不适合小团队
- 生态封闭:用户无法自定义 Skill,是平台锁定模型
- 系统复杂度:三级加载 + depends + frontmatter stripping——实现和调试门槛高
- 互操作性缺失:与 Claude Code/Codex CLI 高度相似但不完全兼容
6. 概念系统映射
核心类比:为一个有注意力缺陷的天才设计工作记忆辅助系统
Agent Skill 本质上是一个面向 LLM 的延迟加载知识分发系统。经过分析,用两个类比领域来映射其工程机制和信息经济学:
编译器/链接器系统(工程机制映射)
| Agent Skill 概念 | 编译器概念 | 为什么准确 |
|---|---|---|
| Index 层 | 预处理符号扫描 | 廉价全局扫描,建立路由索引 |
| Description | 函数签名/导出符号 | 匹配规则,不是内容描述 |
| Load 层 | 编译到 IR | 中等成本的语义加载 |
| Runtime 文件 | 动态链接库(dlopen) | 按需、高成本、延迟加载 |
scripts/ | 预编译静态库 | “Give it code to compose, not reconstruct” |
| Gotchas | 编译器警告规则(-Wall) | 负面案例驱动的增量防御 |
| Eval | 测试套件 + CI | 路由精度 ≈ 符号解析测试 |
depends: | 链接器依赖图 | 递归依赖解析 |
图书馆知识管理系统(信息经济学映射)
| Agent Skill 概念 | 图书馆概念 | 为什么准确 |
|---|---|---|
| Skill Index | 目录卡片柜 | 每张卡片 = name+description,读者据此决定是否取书 |
| Description | 主题词(LCSH) | 不是描述书的内容,而是描述检索入口 |
| 三层加载 | 目录→文摘→全文 | 成本递增、时间递增 |
| Hub-and-Spoke | 开架→密集书库→特藏室 | 高频资源放近处,低频资源放远处 |
| “Every Skill is a tax” | 馆藏维护成本 | 每多一本书 = 分类+排架+盘点成本 |
| 多层嵌套 | DDC/LCC 分类法层级 | 用分层降低选择复杂度 |
类比失效的边界
两个类比的共同局限在于:Skill 面向的消费者既不是确定性机器(编译器),也不是有常识的人类(图书馆读者),而是一个"什么都知道但偶尔在最基础的事上犯错"的概率性智能体。 Skill 的核心目的是让模型做"没有这个 Skill 就不会做的事”——这是一种行为编程(behavioral programming),在传统系统中没有精确对应。
此外,一个关键差异是全局负外部性:在编译器中添加新目标文件不会让已有文件编译失败,但添加新 Skill 可能让所有其他 Skill 的路由质量下降(Index 的注意力预算被稀释)。Perplexity 原文:“Every time you add an additional Skill, you risk making every other Skill slightly worse.”
7. 落地建议与风险矩阵
适用场景(10 个)
| # | 场景 | 适用度 | 核心原因 | 推荐方案 |
|---|---|---|---|---|
| 1 | 个人开发者自建 Skills | 高 | 已在做的事情和方法论高度契合 | 改写 description 为 “Load when…” 格式 |
| 2 | 企业团队共享 Skills 库 | 高 | 统一规范,减少不一致 | 控制总量 15-20 个,每个有明确 owner |
| 3 | 代码审查自动化 | 极高 | 模型基础能力够用但需领域特定指导 | gotchas 聚焦团队规范和历史 bug 模式 |
| 4 | 客户支持 Agent | 极高 | 三层渐进加载的理想场景 | 按产品/问题类型多层嵌套 |
| 5 | 数据分析流水线 | 高 | 确定性逻辑放 scripts/,条件加载放 references/ | “Give it code to compose, not reconstruct” |
| 6 | 多 Agent 协作系统 | 高 | 三级分类(系统/用户/项目),per-user 隔离 | 用户级优先级高于系统级 |
| 7 | 开源项目贡献规范 | 中高 | gotchas 对不熟悉项目的贡献者价值极高 | AGENTS.md(跨系统兼容)+ 可选 SKILL.md |
| 8 | 文档生成与维护 | 中 | 模型基础能力较强的领域 | 先跑无 Skill 基线,4/5 可接受就不需要 Skill |
| 9 | 个人知识管理 Agent | 高 | 个人偏好 = 模型训练数据中没有的信息 | 按操作拆分为多个小 Skill |
| 10 | 安全审计 | 中高 | Trail of Bits 已发布 security review Skill | gotchas 聚焦已知漏洞模式和检查清单 |
不适合的场景
| 场景 | 原因 |
|---|---|
| 通用编程任务(Git、Docker、npm) | “If it’s easy to explain, the model already knows it. Delete it.” |
| 快速变化的 API/工具 | “If it’s changing faster than you can maintain it, you don’t need a Skill.” |
| 一次性任务 | Skill 的价值在于复用,一次性任务一句话 prompt 足矣 |
| 纯信息查询 | Skill 是改变行为,不是数据库 |
| 全局适用的高频需求 | 应该放 CLAUDE.md 全局上下文,不做成条件加载的 Skill |
| 少于 3 次的重复任务 | 创建 Skill 需 4-8 小时,至少 3 次复用才能摊薄成本 |
风险矩阵
| 风险 | 概率 | 影响 | 缓解措施 |
|---|---|---|---|
| 上下文污染(低质量 Skill 降低整体能力) | 高 (60%) | 高 | 每个Skill必须通过"无Skill基线对比"测试;SkillsBench:16/84任务出现负面影响 |
| 路由脱靶(不该加载时加载) | 中 (40%) | 中高 | description用"Load when…"+真实查询关键词;建立负面eval |
| 自生成 Skill 陷阱 | 高 (70%) | 中 | 研究数据:自生成Skill平均效果-1.3pp;必须由人类专家审校 |
| 维护漂移(内容与需求脱节) | 高 (50%) | 中 | 快变内容放scripts/(runtime层),不放SKILL.md |
| 模型更新导致失效 | 中 (30%) | 中高 | Perplexity发现"Sonnet and GPT behave quite differently”;建立跨模型eval |
| 过度工程化 | 高 (60%) | 低中 | “Would the agent get this wrong without this instruction?“如果不会,不需要Skill |
推荐实施路径
Phase 0(1-2 天):现状审计——列出现有 Skill,每个跑"Pascal 测试”(删除一句话看行为是否变差),改写所有 description 为 “Load when…” 格式,记录无 Skill 基线。
Phase 1(1 周):核心 Skill 优化——建立黄金测试集(每个 Skill 3-5 个用例),重构为 Hub-and-Spoke 结构(SKILL.md <=3000 tokens),建立 Gotchas 部分,跨模型验证核心 Skill。
Phase 2(2-4 周):体系建设——建立 Skill PR 评审清单,实现 Index 层 Token 成本告警(>3000 tokens 时警告),建立季度审计流程。
隐性成本
| 项目 | 每会话成本 | 月成本(50 会话/天) |
|---|---|---|
| 10 Skill Index 层 | 1,000 tokens ≈ $0.003 | $4.50/月 |
| 每会话激活 1 个 Skill Load 层 | $0.015 | $22.50/月 |
| Runtime 层 | ~2,000-20,000 tokens/次 | 取决于频率 |
| 总计 | ~$0.02-0.05/会话 | ~$30-75/月 |
维护时间:10 个 Skill 的月度维护约 4-8 小时(含 gotchas 追加、eval 更新、跨模型验证)。
8. 交叉发现(跨维度洞察)
洞察 1:Skill 不是文档,是行为编程
维度 2(核心原理)和维度 3(实现方案)交叉揭示了一个深层认知:Skill 的消费者是 LLM 而非人类。因此,人类的好习惯(简洁、显式、稀疏的代码风格)在 Skills 上下文中变成了反模式。Perplexity 的 “Zen of Skills vs Zen of Python” 对比表揭示:LLM 已经知道 git 命令怎么用,不需要你列出命令序列;它需要的是你告诉它哪里容易出错(gotchas)。
洞察 2:分层信息架构的普遍有效性
维度 1(历史演进)的四代演化和维度 6(概念映射)的双重类比共同指向一个结论:从编译器的命名空间到图书馆的杜威分类法,从人类认知的 7±2 到 LLM 路由的层次化选择,分层是处理复杂信息选择问题的普适策略。Perplexity 的税法 Skill(1,945 条三层嵌套)是这个普适原理在 LLM 上下文管理中的首次大规模验证。
洞察 3:社区"蛇油"论有道理,但不完整
维度 4(生态现状)中 Hacker News 的"蛇油"论(~30%)和维度 2 的学术数据形成对话。SkillsBench 的数据(自生成 Skill -1.3pp,人工策展 +16.2pp)支持了"低质量 Skill 确实有害"的批评。但"30 年经验工程师报告质变"的实用主义声音同样有道理——关键区别在于Skill 的质量而非 Skill 的概念本身。16/84 个任务出现负面影响的数据量化了这个边界:Skill 不是万灵药,而是需要精心设计的手术工具。
洞察 4:分发是下一个战场,安全是最大隐患
维度 4 揭示的两个关键趋势将主导 Skill 生态的下一步发展:
分发困境(HN 用户 latand6 提出):最有用的 Skill 都很小(一个 md 文件 + 可能一个脚本),不值得变成 GitHub repo,但跨机器/跨团队共享又需要 package manager 级别的解决方案。Microsoft 的 APM(agent package manager)正在尝试解决。
安全隐患:9% 的已发布 Skills 属于关键风险类别,40% 触及敏感数据。Anthropic 官方警告"Skills 等同于安装软件”——但当前缺乏平台级的沙箱和权限控制。
洞察 5:EvoSkills 暗示自动化的未来方向
维度 1 提到的 EvoSkills(Zhang et al., 2026)与维度 2 的 Gotchas Flywheel 是同一思路的学术实现和工程实现。EvoSkills 的 5 轮协同进化达到 71.1% pass rate(远超人类编写的 53.5%),暗示自动化的 Skill 生成/精炼是可行的,但需要迭代的验证循环。这指向一个未来方向:Skill 的创建可能从纯手工转向"人机协同的迭代精炼"模式。
风险与局限
方法论自身局限
人力密集:高质量 Skill 需要领域专家手动策展,且需要持续维护。EvoSkills 暗示未来可能部分自动化,但目前仍需人类主导。
系统特异性:Perplexity 的方法论高度绑定其 Computer 产品的三层加载架构。其他 Agent 系统的上下文注入机制可能需要不同的优化策略。
评估偏差:Eval 的有效性依赖于测试用例的覆盖度。对于长尾场景,“append-mostly” 的 gotchas 模式可能永远无法收敛。
模型依赖:不同模型对同一 Skill 的行为不一致(“Sonnet and GPT behave quite differently”),Skill 的有效性可能随模型更新而漂移。
本分析的局限
- 维度 7(社区衍生)数据缺失,从维度 4 中提取替代信息
- 部分学术来源为 arXiv 预印本(EvoSkills、SkillsBench),未经同行评审
- Perplexity 的内部数据(如实际 Skill 数量、路由精度指标)未公开,分析基于方法论文章而非生产数据
- 社区情绪分析基于 Hacker News 和 Reddit 的非代表性样本
信息可信度说明
| 信源等级 | 定义 | 本报告中的信源 |
|---|---|---|
| ★★★★★ | 一手信源,经过同行评审或官方确认 | Perplexity 原文、官方博客、Brown 2020 (NeurIPS)、Schick 2023 (NeurIPS)、Liu 2023 (TACL)、Jiang 2023 (EMNLP)、Codex CLI 源码 |
| ★★★★ | 二手权威信源或未经评审的严谨研究 | VentureBeat 报道、EvoSkills (arXiv)、SkillsBench (arXiv)、Bosch/CMU 研究 (arXiv) |
| ★★★ | 权威个人/组织观点,无独立验证 | Addy Osmani、Karpathy、Garry Tan、Simon Willison 评论 |
| ★★ | 社区讨论,用于感知趋势 | HN 评论、Reddit 讨论、Medium 博客 |
量化数据标注:所有百分比和数值均标注了来源。来自 SkillsBench 和 EvoSkills 的数据基于 arXiv 预印本,未经独立复现。
附录:关键信息源
| # | 信源 | 类型 | 链接 |
|---|---|---|---|
| 1 | Perplexity Agents Team (2026), “Designing, Refining, and Maintaining Agent Skills at Perplexity” | 一手方法论 | Perplexity Research |
| 2 | Brown et al. (2020), “Language Models are Few-Shot Learners” | 学术 (NeurIPS) | arXiv:2005.14165 |
| 3 | Liu et al. (2023), “Lost in the Middle: How Language Models Use Long Contexts” | 学术 (TACL) | arXiv:2307.03172 |
| 4 | Schick et al. (2023), “Toolformer: Language Models Can Teach Themselves to Use Tools” | 学术 (NeurIPS) | arXiv:2302.04761 |
| 5 | Jiang et al. (2023), “LLMLingua: Compressing Prompts for Accelerated Inference” | 学术 (EMNLP) | arXiv:2310.05736 |
| 6 | Xiao et al. (2023), “Efficient Streaming Language Models with Attention Sinks” | 学术 (arXiv) | arXiv:2309.17453 |
| 7 | Li et al. (2026), “SkillsBench: Benchmarking Agent Skills” | 学术 (arXiv) | arXiv:2602.12670 |
| 8 | Zhang et al. (2026), “EvoSkills: Co-evolutionary Skill Generation” | 学术 (arXiv) | arXiv:2604.01687 |
| 9 | Ling et al. (2026), Bosch Research + CMU 大规模 Skills 量化研究 | 学术 (arXiv) | arXiv:2602.08004 |
| 10 | OpenAI Codex CLI 源码 (codex-rs/core-skills/) | 开源源码 | GitHub |
| 11 | Anthropic Skills 规范 | 官方文档 | agentskills.io |
| 12 | Miller (1956), “The Magical Number Seven, Plus or Minus Two” | 经典理论 | Psychological Review |