HTML

来源：Perplexity Agents 团队 “Designing, Refining, and Maintaining Agent Skills at Perplexity” 分析完成时间：2026-05-10

Perplexity Agent Skills 设计方法论深度分析

摘要

Perplexity 于 2026 年 5 月发布了业界首套 Agent Skills 工程化方法论，将"为 LLM 注入领域专长"从隐式实践提升为显式学科。其核心贡献是三层渐进式加载（Index/Load/Runtime）的 Token 经济学模型、以 Description 为路由触发器的条件注入机制、以及 Gotchas Flywheel 的持续精炼闭环。学术研究表明，人工策展的 Skills 可将任务完成率提升 16.2 个百分点，而模型自生成的 Skills 反而降低表现。SKILL.md 已成为 Anthropic、OpenAI、Google、Microsoft 四方采纳的事实标准，但 Perplexity 在 Eval 工程化和 Token 预算管理上领先所有竞品至少一个身位。

信息源概览

维度	来源数量	类型	可信度
技术背景	10	一手官方文档(2)、学术论文(5)、权威媒体(2)、社区(1)	★★★★-★★★★★
核心原理	12	学术论文(8)、一手文档(1)、经典理论(3)	★★★★-★★★★★
实现方案	8	开源源码(3)、官方文档(3)、官方仓库(2)	★★★★★
生态现状	15+	GitHub 仓库(5)、学术研究(2)、HN/Reddit 讨论(5)、官方文档(3)	★★★-★★★★★
对比分析	9	各平台官方文档	★★★★-★★★★★
概念映射	2	编译器理论 + 图书馆学	逻辑推演
落地建议	5	原文 + 源码 + 社区实践	★★★★

总评：以 Perplexity 官方方法论文章为核心锚点，辅以 8 篇经过同行评审或 arXiv 预印本的学术论文、3 份开源代码库源码（Codex CLI）、以及各平台官方文档交叉验证。数据可信度整体较高。

一句话总结

Skill 的价值不在于传递信息，而在于人类专家对模型失败模式的密集编码——“如果模型不需要你教，那就不值得放在 Skill 里。”

1. 技术背景与历史演进

从 Prompt 到 Skill 的四代演化

Agent Skills 不是凭空出现的概念。它是从 2020 年 GPT-3 论文（Brown et al., NeurIPS 2020）提出的 In-Context Learning（ICL）开始，经过四个明确的代际演化而成的：

In-Context Learning (Brown 2020)
  → Prompt Engineering (2020-2022)
    → System Prompt / Custom Instructions (2022-2024)
      → Tool Use / Function Calling (Schick 2023)
        → Agent Skills (Anthropic 2025, Perplexity 2026)

每一代解决上一代的特定局限：

代际	解决了什么	留下了什么问题
Prompt Engineering	证明"通过输入可以控制输出"	每轮手动、无法复用
System Prompt	持久化、版本控制、团队共享	全量加载、无优先级、指令互相干扰
Tool Use	按需调用、单次精确执行	粒度是单个函数，无法表达复杂工作流
Agent Skills	多步骤工作流的条件注入 + Token 预算管理	人力密集、跨模型不一致

Perplexity 的独特贡献：在 Anthropic 2025 年提出 Skill 概念的基础上，Perplexity 首次将其从概念定义转化为可操作的方法论——有具体的六步流程、量化的 Token 预算、维护飞轮、和失败模式分析。

为什么这件事现在变得紧迫？

三个结构性变化在 2025-2026 年同时发生：

模型已经够强，编排成了瓶颈。Perplexity 官方博客原话：“Frontier AI models are getting smarter. The best are becoming so capable that the products built around them are a bottleneck."（来源：Perplexity 官方博客，可信度：一级）
模型在专化，不在收敛。2025 年 1 月，90% 以上的企业任务集中在两个模型；到 2025 年 12 月，没有任何单一模型市场份额超过 25%。平均每 17.5 天出现一个新的前沿模型。（来源：VentureBeat 引用 Perplexity 发布会数据，可信度：二级）
上下文窗口有限，注入知识的成本极高。这就是 Perplexity 反复强调的 “every Skill is a tax” 的物理基础。

Perplexity Computer：方法论的产品载体

Perplexity Computer 于 2026 年 2 月 25 日发布，被这家估值 200 亿美元的公司称为 “most ambitious product”。它是一个多模型编排的通用数字工作者，$200/月，协调 19 个模型（Claude Opus 4.6 做核心推理 + Gemini 做深度研究 + GPT-5.2 处理长上下文 + Grok 做轻量任务等）。Skills 是 Computer 的核心执行知识层。

2. 核心原理与学术根基

三层渐进式加载：Token 经济学的工程实现

Perplexity 将 Skill 的上下文成本精确分为三个层级：

层级	加载内容	预算	支付时机
Index	每个非隐藏 Skill 的 `name: description` 对	~100 tokens/Skill	每次会话、每个用户、永远支付
Load	完整 SKILL.md body	~5,000 tokens	Skill 被激活后，直到上下文压缩边界
Runtime	scripts/、references/、assets/、子 Skill	无上限	仅当 Agent 读取时

学术溯源：

“Lost in the Middle”（Liu et al., 2023, TACL 发表）：模型在长上下文中对开头和结尾信息的利用率最高，中间部分显著下降。Index 永远在 system prompt 开头（高注意力区域），Body 在中间加载，Runtime 文件按需读取。三层分离是对 U 型注意力曲线的直接工程回应。
LLMLingua（Jiang et al., EMNLP 2023）：prompt 可压缩 20 倍仅损失 1.5% 性能。Perplexity 的 “every sentence must matter” 原则和 description 50 词限制，正是基于已被学术验证的事实：低信息密度 token 会稀释高价值 token 的效果。
StreamingLLM（Xiao et al., 2023）：Transformer 的注意力机制天然倾向于将大量注意力分配给序列开头的 token（“attention sink” 现象）。Skill description 放在 Index（system prompt 开头）最大化了路由信号的可见性。

信息架构的层次化设计

Perplexity 给出了一个关键的认知科学论证：

“Reliably choosing the right topic among 300 is an unsolved challenge even for today’s best frontier models. It’s a much easier choice problem for a model to hone in on one of 20 areas, than among the 15 topics within that area.”

这对应了 George A. Miller (1956) 的经典发现——人类工作记忆容量约为 7±2 个信息块。通过层次化组织（chunking），可以在不增加认知负担的情况下处理更多信息。Perplexity 将这一原理从人类认知迁移到 LLM 路由。

税法实验——上下文污染的定量证据：

Perplexity 提供了一个极具说服力的自然实验：将美国国内税收法典全部 1,945 条放在单一文件夹中呈现给模型，结果比不加载任何 Skill 还差。无关信息的噪声效应超过了有用信息的增益。

解决方案是三层嵌套（20 个领域 → 每领域 15 个主题 → 具体条款），配合快速参考指南和自定义搜索工具。

自生成 Skill 无效：一个关键实证

Perplexity 引用了一个颠覆直觉的发现：

“Self-generated Skills provide no benefit on average, showing that models cannot reliably author the procedural knowledge they benefit from consuming.”

这一结论被两份独立研究验证：

方法	SkillsBench Pass Rate	来源
无 Skills 基线	30.6%	Li et al., 2026 (arXiv:2602.12670)
人类编写 Skills	53.5% (+22.9 pp)	同上
Anthropic 官方 Skill-Creator	34.1% (+3.5 pp)	同上
模型自生成 Skills（单次）	32.0% (+1.4 pp)	同上
EvoSkills（5 轮协同进化）	71.1% (+40.5 pp)	Zhang et al., 2026 (arXiv:2604.01687)

EvoSkills 的数据表明，通过 Skill Generator + Surrogate Verifier 的多轮协同进化框架，自动化生成 Skill 是可能的，但需要至少 5 轮迭代的验证循环——而非一次性生成。这实质上验证了 Perplexity 的 Gotchas Flywheel：Skill 的价值不在初始编写，而在持续精炼。

跨模型一致性：一个被低估的问题

Perplexity 明确指出：

“Sonnet and GPT behave quite differently when it comes to Skills.”

一个在 Claude Sonnet 上完美工作的 Skill，可能在 GPT 上完全不触发。这意味着 Skill 的 description 需要在多模型上交叉验证。这与 Wei et al. (2022) 对 Chain-of-Thought Prompting 的发现一致——不同的 prompt 策略在不同模型上效果差异巨大。

3. 实现方案与工具链

SKILL.md：已形成事实标准的文件格式

Perplexity、OpenAI Codex CLI、Claude Code 三者使用几乎相同的文件格式：

---
name: skill-name          # 必填，小写+连字符
description: "Load when..." # 必填，路由触发器
metadata:                 # 可选
  short-description: "..."
---
# Skill Body (Markdown)

Codex CLI 源码中的精确限制（来自 codex-rs/core-skills/src/loader.rs）：

常量	值	含义
`MAX_NAME_LEN`	64 字符	Skill 名称上限
`MAX_DESCRIPTION_LEN`	1024 字符	描述上限
`MAX_SCAN_DEPTH`	6	目录递归扫描深度
`MAX_SKILLS_DIRS_PER_ROOT`	2000	每个 root 最大目录数

Codex 的预算算法（来自 render.rs 源码）：

取"上下文窗口的 2%“和 “8000 字符"中的较小值作为 Index 层总预算。超出时先等分截断 description，再从末尾整体省略 Skill。Codex 还有独家的路径压缩（Path Aliasing）机制——将长路径压缩为 r0/skill-name 的短别名。

目录结构：Hub-and-Spoke 模式

skill-name/
├── SKILL.md           # 枢纽：frontmatter + 精炼指令
├── scripts/           # 确定性逻辑——Agent 直接执行，不重新发明
├── references/        # 重型文档——仅条件加载
├── assets/            # 输出模板——Agent 复制并填充
└── config.json        # 首次运行配置（问一次，存下来）

核心原则是 Hub-and-Spoke：SKILL.md 作为轻量级枢纽（hub），仅在需要时展开（spoke）到子资源。Perplexity 原文的核心原则：“Give it code to compose, not reconstruct”（给它可组合的代码，不要让它重新构建）。

Description：路由触发器而非文档

这是 Perplexity 方法论最反直觉的核心设计：

# 错误：描述 Skill 做什么（文档式）
description: "This skill helps engineers monitor pull requests by watching CI status."

# 正确：描述何时加载（路由式）
description: "Load when the user wants to babysit a PR, watch CI, make sure something lands, or monitor a deployment."

路由机制本质上是 ICL（In-Context Learning）——模型在 system prompt 中看到所有 Skill 的 name+description 对（相当于函数签名），通过匹配用户查询与 description 的语义相似性来决定是否调用 load_skill()。这不是确定性的 URL 匹配或 API 路由，而是概率性的语义路由。

Gotchas Flywheel：陷阱飞轮的维护哲学

Perplexity 将 Gotchas（陷阱/反模式） 定位为 Skill 中最高价值的内容：

“Gotchas ARE the special cases (they’re the highest-value content).”

维护循环：

Agent 失败 → 追加 gotcha
Agent 脱靶加载 Skill → 收紧 description + 添加负面 eval
Agent 该加载但未加载 → 添加关键词 + 正面 eval
System prompt 变更 → 检查冲突或重复

为什么负样本比正样本更有信息量？ 正面指令（模型已经做对的）边际信息量为零；负样本（模型做错的）每一个都标记了模型认知的盲区。Perplexity 的实用测试：

“Would the agent get this wrong without this instruction? If the sentence does not need to be there, it cannot afford to be there.”

Eval 套件：评估驱动的 Skill 生命周期

Perplexity 要求 Eval 在 Skill 之前编写（Step 0），类似 TDD 但应用于上下文注入：

Eval 类型	测试什么	指标
加载精度/召回	Skill 是否在正确时加载	Precision + Recall + Forbidden checks
渐进加载验证	是否读取了正确的附属文件	条件触发正确率
端到端任务完成度	Agent 是否完成任务	LLM Judge 评分（0-100）
跨模型一致性	不同模型行为是否一致	GPT/Claude Opus/Sonnet 一致率

三系统实现对比

特性	Perplexity Computer	OpenAI Codex CLI	Claude Code
Index 预算	~100 tokens/skill	2% 上下文窗口 / 8000 字符	无公开限制
截断策略	无（控制 description 长度）	等分→截断→省略末尾	无
路径压缩	无	有（r0/, r1/ 别名）	无
依赖加载	`depends:` 递归	无	无
条件文件读取	有	有	有

4. 生态现状与标准化

SKILL.md 已是事实标准

Anthropic 于 2025 年 12 月 18 日将 Skills 规范以开放标准形式发布，托管在 agentskills.io。SKILL.md 已扩散到至少 20+ 个平台：

平台	Skills 存储路径	状态
Claude Code	`~/.claude/skills/`	正式支持
Codex CLI	`~/.codex/skills/`	正式支持
Gemini CLI	`~/.gemini/skills/`	正式支持
GitHub Copilot	项目级目录	社区支持
Cursor	`.cursor/rules/`	转换器支持
Aider	`CONVENTIONS.md`	转换器支持

Anthropic 的商业化布局走得最远：Team/Enterprise 计划管理员可集中配置 Skills；官方 Partner Directory 包含 Atlassian、Stripe、Zapier 等；企业客户已在法律、财务、数据科学等领域生产使用。Anthropic 内部工程师使用 Claude 完成了 60% 的工作，报告 50% 生产力提升。

社区规模爆发

GitHub 上 claude-code-skills topic 下有 843 个公开仓库（截至 2026 年 5 月）
最大单仓库 alirezarezvani/claude-skills 收录 235 个 Skills，5,200+ stars
ComposioHQ/awesome-claude-skills 整理了 1,000+ 社区 Skills
Bosch Research + CMU 的量化研究（arXiv:2602.08004）：分析了 40,285 个公开 Skills，发现生态在 20 天内增长 18.5 倍

社区核心辩论

Hacker News 上的讨论（Addy Osmani 文章，252 points, 115 comments）揭示了三种声音：

“蛇油"论（~30%）：Skills 假设 LLM 是严格的规则执行者，但模型可以随时忽略硬性要求
“实用主义"论（~40%）：30 年经验的工程师报告"从 vibe coding 到 agentic engineering 的质变”；人类也不完美，我们用流程管理人类的不可靠性，Skills 对 LLM 做同样的事
“框架疲劳"论（~20%）：每几个月换一个新名词，过度工程化的 Skills 比单行 prompt 效果更差

安全隐患

Bosch/CMU 研究揭示了严重的安全风险：

近 40% 的已发布 Skills 访问敏感上下文或执行写操作
9% 属于"关键风险"类别
46% 的 Skills 与其他 Skill 存在名称冲突（近似重复发布）

Anthropic 在官方文档中明确警告：Skills 等同于安装软件，恶意 Skill 可导致数据泄露和未授权系统访问。

5. 跨系统对比分析

全景结构化对比

系统	指令格式	渐进式加载	路由方式	Eval 体系	设计哲学
Perplexity Computer	SKILL.md（目录式）	三级 Token 预算	Description 即路由触发器	完整四类 Eval	Context as Infrastructure
Claude Code	CLAUDE.md + SKILL.md	Skills 按需加载	隐式路由（description 含触发词）	无内置 Eval	Context as Personalization
Cursor	.mdc（四种触发模式）	Agent Requested 按需拉取	description + glob pattern	无内置 Eval	Context as IDE Configuration
OpenAI Codex CLI	AGENTS.md + SKILL.md	description 摘要→完整 Skill	description 驱动路由	无公开 Eval	快速跟进策略
GitHub Copilot	copilot-instructions.md	无（全量注入）	无显式路由	无 Eval	Context as Repository Convention
Aider / Google Jules	CONVENTIONS.md / AGENTS.md	无	无	无	Context as Minimal Convention

Perplexity 方法的独特优势

Token 经济学工程化：唯一将 Token 成本明确量化为三级预算的系统
路由优先的开发方法论：唯一明确声明"description 是路由触发器，不是文档"的系统
评估驱动的生命周期：Eval 前置于开发（Step 0），是同类中最完善的
Gotchas Flywheel：独创的 append-mostly 维护模式

Perplexity 方法的局限

极高维护成本：“If your Skill is easy to write, it is probably too long or shouldn’t exist”——人力密集，不适合小团队
生态封闭：用户无法自定义 Skill，是平台锁定模型
系统复杂度：三级加载 + depends + frontmatter stripping——实现和调试门槛高
互操作性缺失：与 Claude Code/Codex CLI 高度相似但不完全兼容

6. 概念系统映射

核心类比：为一个有注意力缺陷的天才设计工作记忆辅助系统

Agent Skill 本质上是一个面向 LLM 的延迟加载知识分发系统。经过分析，用两个类比领域来映射其工程机制和信息经济学：

编译器/链接器系统（工程机制映射）

Agent Skill 概念	编译器概念	为什么准确
Index 层	预处理符号扫描	廉价全局扫描，建立路由索引
Description	函数签名/导出符号	匹配规则，不是内容描述
Load 层	编译到 IR	中等成本的语义加载
Runtime 文件	动态链接库（dlopen）	按需、高成本、延迟加载
`scripts/`	预编译静态库	“Give it code to compose, not reconstruct”
Gotchas	编译器警告规则（-Wall）	负面案例驱动的增量防御
Eval	测试套件 + CI	路由精度 ≈ 符号解析测试
`depends:`	链接器依赖图	递归依赖解析

图书馆知识管理系统（信息经济学映射）

Agent Skill 概念	图书馆概念	为什么准确
Skill Index	目录卡片柜	每张卡片 = name+description，读者据此决定是否取书
Description	主题词（LCSH）	不是描述书的内容，而是描述检索入口
三层加载	目录→文摘→全文	成本递增、时间递增
Hub-and-Spoke	开架→密集书库→特藏室	高频资源放近处，低频资源放远处
“Every Skill is a tax”	馆藏维护成本	每多一本书 = 分类+排架+盘点成本
多层嵌套	DDC/LCC 分类法层级	用分层降低选择复杂度

类比失效的边界

两个类比的共同局限在于：Skill 面向的消费者既不是确定性机器（编译器），也不是有常识的人类（图书馆读者），而是一个"什么都知道但偶尔在最基础的事上犯错"的概率性智能体。 Skill 的核心目的是让模型做"没有这个 Skill 就不会做的事”——这是一种行为编程（behavioral programming），在传统系统中没有精确对应。

此外，一个关键差异是全局负外部性：在编译器中添加新目标文件不会让已有文件编译失败，但添加新 Skill 可能让所有其他 Skill 的路由质量下降（Index 的注意力预算被稀释）。Perplexity 原文：“Every time you add an additional Skill, you risk making every other Skill slightly worse.”

7. 落地建议与风险矩阵

适用场景（10 个）

#	场景	适用度	核心原因	推荐方案
1	个人开发者自建 Skills	高	已在做的事情和方法论高度契合	改写 description 为 “Load when…” 格式
2	企业团队共享 Skills 库	高	统一规范，减少不一致	控制总量 15-20 个，每个有明确 owner
3	代码审查自动化	极高	模型基础能力够用但需领域特定指导	gotchas 聚焦团队规范和历史 bug 模式
4	客户支持 Agent	极高	三层渐进加载的理想场景	按产品/问题类型多层嵌套
5	数据分析流水线	高	确定性逻辑放 scripts/，条件加载放 references/	“Give it code to compose, not reconstruct”
6	多 Agent 协作系统	高	三级分类（系统/用户/项目），per-user 隔离	用户级优先级高于系统级
7	开源项目贡献规范	中高	gotchas 对不熟悉项目的贡献者价值极高	AGENTS.md（跨系统兼容）+ 可选 SKILL.md
8	文档生成与维护	中	模型基础能力较强的领域	先跑无 Skill 基线，4/5 可接受就不需要 Skill
9	个人知识管理 Agent	高	个人偏好 = 模型训练数据中没有的信息	按操作拆分为多个小 Skill
10	安全审计	中高	Trail of Bits 已发布 security review Skill	gotchas 聚焦已知漏洞模式和检查清单

不适合的场景

场景	原因
通用编程任务（Git、Docker、npm）	“If it’s easy to explain, the model already knows it. Delete it.”
快速变化的 API/工具	“If it’s changing faster than you can maintain it, you don’t need a Skill.”
一次性任务	Skill 的价值在于复用，一次性任务一句话 prompt 足矣
纯信息查询	Skill 是改变行为，不是数据库
全局适用的高频需求	应该放 CLAUDE.md 全局上下文，不做成条件加载的 Skill
少于 3 次的重复任务	创建 Skill 需 4-8 小时，至少 3 次复用才能摊薄成本

风险矩阵

风险	概率	影响	缓解措施
上下文污染（低质量 Skill 降低整体能力）	高 (60%)	高	每个Skill必须通过"无Skill基线对比"测试；SkillsBench：16/84任务出现负面影响
路由脱靶（不该加载时加载）	中 (40%)	中高	description用"Load when…"+真实查询关键词；建立负面eval
自生成 Skill 陷阱	高 (70%)	中	研究数据：自生成Skill平均效果-1.3pp；必须由人类专家审校
维护漂移（内容与需求脱节）	高 (50%)	中	快变内容放scripts/（runtime层），不放SKILL.md
模型更新导致失效	中 (30%)	中高	Perplexity发现"Sonnet and GPT behave quite differently”；建立跨模型eval
过度工程化	高 (60%)	低中	“Would the agent get this wrong without this instruction?“如果不会，不需要Skill

隐性成本

项目	每会话成本	月成本（50 会话/天）
10 Skill Index 层	1,000 tokens ≈ $0.003	$4.50/月
每会话激活 1 个 Skill Load 层	$0.015	$22.50/月
Runtime 层	~2,000-20,000 tokens/次	取决于频率
总计	~$0.02-0.05/会话	~$30-75/月

维护时间：10 个 Skill 的月度维护约 4-8 小时（含 gotchas 追加、eval 更新、跨模型验证）。

8. 交叉发现（跨维度洞察）

洞察 1：Skill 不是文档，是行为编程

维度 2（核心原理）和维度 3（实现方案）交叉揭示了一个深层认知：Skill 的消费者是 LLM 而非人类。因此，人类的好习惯（简洁、显式、稀疏的代码风格）在 Skills 上下文中变成了反模式。Perplexity 的 “Zen of Skills vs Zen of Python” 对比表揭示：LLM 已经知道 git 命令怎么用，不需要你列出命令序列；它需要的是你告诉它哪里容易出错（gotchas）。

洞察 2：分层信息架构的普遍有效性

维度 1（历史演进）的四代演化和维度 6（概念映射）的双重类比共同指向一个结论：从编译器的命名空间到图书馆的杜威分类法，从人类认知的 7±2 到 LLM 路由的层次化选择，分层是处理复杂信息选择问题的普适策略。Perplexity 的税法 Skill（1,945 条三层嵌套）是这个普适原理在 LLM 上下文管理中的首次大规模验证。

洞察 3：社区"蛇油"论有道理，但不完整

维度 4（生态现状）中 Hacker News 的"蛇油"论（~30%）和维度 2 的学术数据形成对话。SkillsBench 的数据（自生成 Skill -1.3pp，人工策展 +16.2pp）支持了"低质量 Skill 确实有害"的批评。但"30 年经验工程师报告质变"的实用主义声音同样有道理——关键区别在于Skill 的质量而非 Skill 的概念本身。16/84 个任务出现负面影响的数据量化了这个边界：Skill 不是万灵药，而是需要精心设计的手术工具。

洞察 4：分发是下一个战场，安全是最大隐患

维度 4 揭示的两个关键趋势将主导 Skill 生态的下一步发展：

分发困境（HN 用户 latand6 提出）：最有用的 Skill 都很小（一个 md 文件 + 可能一个脚本），不值得变成 GitHub repo，但跨机器/跨团队共享又需要 package manager 级别的解决方案。Microsoft 的 APM（agent package manager）正在尝试解决。
安全隐患：9% 的已发布 Skills 属于关键风险类别，40% 触及敏感数据。Anthropic 官方警告"Skills 等同于安装软件”——但当前缺乏平台级的沙箱和权限控制。

洞察 5：EvoSkills 暗示自动化的未来方向

维度 1 提到的 EvoSkills（Zhang et al., 2026）与维度 2 的 Gotchas Flywheel 是同一思路的学术实现和工程实现。EvoSkills 的 5 轮协同进化达到 71.1% pass rate（远超人类编写的 53.5%），暗示自动化的 Skill 生成/精炼是可行的，但需要迭代的验证循环。这指向一个未来方向：Skill 的创建可能从纯手工转向"人机协同的迭代精炼"模式。

风险与局限

方法论自身局限

人力密集：高质量 Skill 需要领域专家手动策展，且需要持续维护。EvoSkills 暗示未来可能部分自动化，但目前仍需人类主导。
系统特异性：Perplexity 的方法论高度绑定其 Computer 产品的三层加载架构。其他 Agent 系统的上下文注入机制可能需要不同的优化策略。
评估偏差：Eval 的有效性依赖于测试用例的覆盖度。对于长尾场景，“append-mostly” 的 gotchas 模式可能永远无法收敛。
模型依赖：不同模型对同一 Skill 的行为不一致（“Sonnet and GPT behave quite differently”），Skill 的有效性可能随模型更新而漂移。

本分析的局限

维度 7（社区衍生）数据缺失，从维度 4 中提取替代信息
部分学术来源为 arXiv 预印本（EvoSkills、SkillsBench），未经同行评审
Perplexity 的内部数据（如实际 Skill 数量、路由精度指标）未公开，分析基于方法论文章而非生产数据
社区情绪分析基于 Hacker News 和 Reddit 的非代表性样本

信息可信度说明

信源等级	定义	本报告中的信源
★★★★★	一手信源，经过同行评审或官方确认	Perplexity 原文、官方博客、Brown 2020 (NeurIPS)、Schick 2023 (NeurIPS)、Liu 2023 (TACL)、Jiang 2023 (EMNLP)、Codex CLI 源码
★★★★	二手权威信源或未经评审的严谨研究	VentureBeat 报道、EvoSkills (arXiv)、SkillsBench (arXiv)、Bosch/CMU 研究 (arXiv)
★★★	权威个人/组织观点，无独立验证	Addy Osmani、Karpathy、Garry Tan、Simon Willison 评论
★★	社区讨论，用于感知趋势	HN 评论、Reddit 讨论、Medium 博客

量化数据标注：所有百分比和数值均标注了来源。来自 SkillsBench 和 EvoSkills 的数据基于 arXiv 预印本，未经独立复现。

附录：关键信息源

#	信源	类型	链接
1	Perplexity Agents Team (2026), “Designing, Refining, and Maintaining Agent Skills at Perplexity”	一手方法论	Perplexity Research
2	Brown et al. (2020), “Language Models are Few-Shot Learners”	学术 (NeurIPS)	arXiv:2005.14165
3	Liu et al. (2023), “Lost in the Middle: How Language Models Use Long Contexts”	学术 (TACL)	arXiv:2307.03172
4	Schick et al. (2023), “Toolformer: Language Models Can Teach Themselves to Use Tools”	学术 (NeurIPS)	arXiv:2302.04761
5	Jiang et al. (2023), “LLMLingua: Compressing Prompts for Accelerated Inference”	学术 (EMNLP)	arXiv:2310.05736
6	Xiao et al. (2023), “Efficient Streaming Language Models with Attention Sinks”	学术 (arXiv)	arXiv:2309.17453
7	Li et al. (2026), “SkillsBench: Benchmarking Agent Skills”	学术 (arXiv)	arXiv:2602.12670
8	Zhang et al. (2026), “EvoSkills: Co-evolutionary Skill Generation”	学术 (arXiv)	arXiv:2604.01687
9	Ling et al. (2026), Bosch Research + CMU 大规模 Skills 量化研究	学术 (arXiv)	arXiv:2602.08004
10	OpenAI Codex CLI 源码 (`codex-rs/core-skills/`)	开源源码	GitHub
11	Anthropic Skills 规范	官方文档	agentskills.io
12	Miller (1956), “The Magical Number Seven, Plus or Minus Two”	经典理论	Psychological Review