Lost Temple

HTML

来源:Perplexity Agents 团队 “Designing, Refining, and Maintaining Agent Skills at Perplexity” 分析完成时间:2026-05-10

Perplexity Agent Skills 设计方法论深度分析

摘要

Perplexity 于 2026 年 5 月发布了业界首套 Agent Skills 工程化方法论,将"为 LLM 注入领域专长"从隐式实践提升为显式学科。其核心贡献是三层渐进式加载(Index/Load/Runtime)的 Token 经济学模型、以 Description 为路由触发器的条件注入机制、以及 Gotchas Flywheel 的持续精炼闭环。学术研究表明,人工策展的 Skills 可将任务完成率提升 16.2 个百分点,而模型自生成的 Skills 反而降低表现。SKILL.md 已成为 Anthropic、OpenAI、Google、Microsoft 四方采纳的事实标准,但 Perplexity 在 Eval 工程化和 Token 预算管理上领先所有竞品至少一个身位。

信息源概览

维度来源数量类型可信度
技术背景10一手官方文档(2)、学术论文(5)、权威媒体(2)、社区(1)★★★★-★★★★★
核心原理12学术论文(8)、一手文档(1)、经典理论(3)★★★★-★★★★★
实现方案8开源源码(3)、官方文档(3)、官方仓库(2)★★★★★
生态现状15+GitHub 仓库(5)、学术研究(2)、HN/Reddit 讨论(5)、官方文档(3)★★★-★★★★★
对比分析9各平台官方文档★★★★-★★★★★
概念映射2编译器理论 + 图书馆学逻辑推演
落地建议5原文 + 源码 + 社区实践★★★★

总评:以 Perplexity 官方方法论文章为核心锚点,辅以 8 篇经过同行评审或 arXiv 预印本的学术论文、3 份开源代码库源码(Codex CLI)、以及各平台官方文档交叉验证。数据可信度整体较高。

一句话总结

Skill 的价值不在于传递信息,而在于人类专家对模型失败模式的密集编码——“如果模型不需要你教,那就不值得放在 Skill 里。”


1. 技术背景与历史演进

从 Prompt 到 Skill 的四代演化

Agent Skills 不是凭空出现的概念。它是从 2020 年 GPT-3 论文(Brown et al., NeurIPS 2020)提出的 In-Context Learning(ICL)开始,经过四个明确的代际演化而成的:

In-Context Learning (Brown 2020)
  → Prompt Engineering (2020-2022)
    → System Prompt / Custom Instructions (2022-2024)
      → Tool Use / Function Calling (Schick 2023)
        → Agent Skills (Anthropic 2025, Perplexity 2026)

每一代解决上一代的特定局限:

代际解决了什么留下了什么问题
Prompt Engineering证明"通过输入可以控制输出"每轮手动、无法复用
System Prompt持久化、版本控制、团队共享全量加载、无优先级、指令互相干扰
Tool Use按需调用、单次精确执行粒度是单个函数,无法表达复杂工作流
Agent Skills多步骤工作流的条件注入 + Token 预算管理人力密集、跨模型不一致

Perplexity 的独特贡献:在 Anthropic 2025 年提出 Skill 概念的基础上,Perplexity 首次将其从概念定义转化为可操作的方法论——有具体的六步流程、量化的 Token 预算、维护飞轮、和失败模式分析。

为什么这件事现在变得紧迫?

三个结构性变化在 2025-2026 年同时发生:

  1. 模型已经够强,编排成了瓶颈。Perplexity 官方博客原话:“Frontier AI models are getting smarter. The best are becoming so capable that the products built around them are a bottleneck."(来源:Perplexity 官方博客,可信度:一级)

  2. 模型在专化,不在收敛。2025 年 1 月,90% 以上的企业任务集中在两个模型;到 2025 年 12 月,没有任何单一模型市场份额超过 25%。平均每 17.5 天出现一个新的前沿模型。(来源:VentureBeat 引用 Perplexity 发布会数据,可信度:二级)

  3. 上下文窗口有限,注入知识的成本极高。这就是 Perplexity 反复强调的 “every Skill is a tax” 的物理基础。

Perplexity Computer:方法论的产品载体

Perplexity Computer 于 2026 年 2 月 25 日发布,被这家估值 200 亿美元的公司称为 “most ambitious product”。它是一个多模型编排的通用数字工作者,$200/月,协调 19 个模型(Claude Opus 4.6 做核心推理 + Gemini 做深度研究 + GPT-5.2 处理长上下文 + Grok 做轻量任务等)。Skills 是 Computer 的核心执行知识层。


2. 核心原理与学术根基

三层渐进式加载:Token 经济学的工程实现

Perplexity 将 Skill 的上下文成本精确分为三个层级:

层级加载内容预算支付时机
Index每个非隐藏 Skill 的 name: description~100 tokens/Skill每次会话、每个用户、永远支付
Load完整 SKILL.md body~5,000 tokensSkill 被激活后,直到上下文压缩边界
Runtimescripts/、references/、assets/、子 Skill无上限仅当 Agent 读取时

学术溯源

信息架构的层次化设计

Perplexity 给出了一个关键的认知科学论证:

“Reliably choosing the right topic among 300 is an unsolved challenge even for today’s best frontier models. It’s a much easier choice problem for a model to hone in on one of 20 areas, than among the 15 topics within that area.”

这对应了 George A. Miller (1956) 的经典发现——人类工作记忆容量约为 7±2 个信息块。通过层次化组织(chunking),可以在不增加认知负担的情况下处理更多信息。Perplexity 将这一原理从人类认知迁移到 LLM 路由。

税法实验——上下文污染的定量证据

Perplexity 提供了一个极具说服力的自然实验:将美国国内税收法典全部 1,945 条放在单一文件夹中呈现给模型,结果比不加载任何 Skill 还差。无关信息的噪声效应超过了有用信息的增益。

解决方案是三层嵌套(20 个领域 → 每领域 15 个主题 → 具体条款),配合快速参考指南和自定义搜索工具。

自生成 Skill 无效:一个关键实证

Perplexity 引用了一个颠覆直觉的发现:

“Self-generated Skills provide no benefit on average, showing that models cannot reliably author the procedural knowledge they benefit from consuming.”

这一结论被两份独立研究验证:

方法SkillsBench Pass Rate来源
无 Skills 基线30.6%Li et al., 2026 (arXiv:2602.12670)
人类编写 Skills53.5% (+22.9 pp)同上
Anthropic 官方 Skill-Creator34.1% (+3.5 pp)同上
模型自生成 Skills(单次)32.0% (+1.4 pp)同上
EvoSkills(5 轮协同进化)71.1% (+40.5 pp)Zhang et al., 2026 (arXiv:2604.01687)

EvoSkills 的数据表明,通过 Skill Generator + Surrogate Verifier 的多轮协同进化框架,自动化生成 Skill 是可能的,但需要至少 5 轮迭代的验证循环——而非一次性生成。这实质上验证了 Perplexity 的 Gotchas Flywheel:Skill 的价值不在初始编写,而在持续精炼

跨模型一致性:一个被低估的问题

Perplexity 明确指出:

“Sonnet and GPT behave quite differently when it comes to Skills.”

一个在 Claude Sonnet 上完美工作的 Skill,可能在 GPT 上完全不触发。这意味着 Skill 的 description 需要在多模型上交叉验证。这与 Wei et al. (2022) 对 Chain-of-Thought Prompting 的发现一致——不同的 prompt 策略在不同模型上效果差异巨大。


3. 实现方案与工具链

SKILL.md:已形成事实标准的文件格式

Perplexity、OpenAI Codex CLI、Claude Code 三者使用几乎相同的文件格式:

---
name: skill-name          # 必填,小写+连字符
description: "Load when..." # 必填,路由触发器
metadata:                 # 可选
  short-description: "..."
---
# Skill Body (Markdown)

Codex CLI 源码中的精确限制(来自 codex-rs/core-skills/src/loader.rs):

常量含义
MAX_NAME_LEN64 字符Skill 名称上限
MAX_DESCRIPTION_LEN1024 字符描述上限
MAX_SCAN_DEPTH6目录递归扫描深度
MAX_SKILLS_DIRS_PER_ROOT2000每个 root 最大目录数

Codex 的预算算法(来自 render.rs 源码):

取"上下文窗口的 2%“和 “8000 字符"中的较小值作为 Index 层总预算。超出时先等分截断 description,再从末尾整体省略 Skill。Codex 还有独家的路径压缩(Path Aliasing)机制——将长路径压缩为 r0/skill-name 的短别名。

目录结构:Hub-and-Spoke 模式

skill-name/
├── SKILL.md           # 枢纽:frontmatter + 精炼指令
├── scripts/           # 确定性逻辑——Agent 直接执行,不重新发明
├── references/        # 重型文档——仅条件加载
├── assets/            # 输出模板——Agent 复制并填充
└── config.json        # 首次运行配置(问一次,存下来)

核心原则是 Hub-and-SpokeSKILL.md 作为轻量级枢纽(hub),仅在需要时展开(spoke)到子资源。Perplexity 原文的核心原则:“Give it code to compose, not reconstruct”(给它可组合的代码,不要让它重新构建)。

Description:路由触发器而非文档

这是 Perplexity 方法论最反直觉的核心设计:

# 错误:描述 Skill 做什么(文档式)
description: "This skill helps engineers monitor pull requests by watching CI status."

# 正确:描述何时加载(路由式)
description: "Load when the user wants to babysit a PR, watch CI, make sure something lands, or monitor a deployment."

路由机制本质上是 ICL(In-Context Learning)——模型在 system prompt 中看到所有 Skill 的 name+description 对(相当于函数签名),通过匹配用户查询与 description 的语义相似性来决定是否调用 load_skill()。这不是确定性的 URL 匹配或 API 路由,而是概率性的语义路由。

Gotchas Flywheel:陷阱飞轮的维护哲学

Perplexity 将 Gotchas(陷阱/反模式) 定位为 Skill 中最高价值的内容:

“Gotchas ARE the special cases (they’re the highest-value content).”

维护循环:

  1. Agent 失败 → 追加 gotcha
  2. Agent 脱靶加载 Skill → 收紧 description + 添加负面 eval
  3. Agent 该加载但未加载 → 添加关键词 + 正面 eval
  4. System prompt 变更 → 检查冲突或重复

为什么负样本比正样本更有信息量? 正面指令(模型已经做对的)边际信息量为零;负样本(模型做错的)每一个都标记了模型认知的盲区。Perplexity 的实用测试:

“Would the agent get this wrong without this instruction? If the sentence does not need to be there, it cannot afford to be there.”

Eval 套件:评估驱动的 Skill 生命周期

Perplexity 要求 Eval 在 Skill 之前编写(Step 0),类似 TDD 但应用于上下文注入:

Eval 类型测试什么指标
加载精度/召回Skill 是否在正确时加载Precision + Recall + Forbidden checks
渐进加载验证是否读取了正确的附属文件条件触发正确率
端到端任务完成度Agent 是否完成任务LLM Judge 评分(0-100)
跨模型一致性不同模型行为是否一致GPT/Claude Opus/Sonnet 一致率

三系统实现对比

特性Perplexity ComputerOpenAI Codex CLIClaude Code
Index 预算~100 tokens/skill2% 上下文窗口 / 8000 字符无公开限制
截断策略无(控制 description 长度)等分→截断→省略末尾
路径压缩有(r0/, r1/ 别名)
依赖加载depends: 递归
条件文件读取

4. 生态现状与标准化

SKILL.md 已是事实标准

Anthropic 于 2025 年 12 月 18 日将 Skills 规范以开放标准形式发布,托管在 agentskills.io。SKILL.md 已扩散到至少 20+ 个平台:

平台Skills 存储路径状态
Claude Code~/.claude/skills/正式支持
Codex CLI~/.codex/skills/正式支持
Gemini CLI~/.gemini/skills/正式支持
GitHub Copilot项目级目录社区支持
Cursor.cursor/rules/转换器支持
AiderCONVENTIONS.md转换器支持

Anthropic 的商业化布局走得最远:Team/Enterprise 计划管理员可集中配置 Skills;官方 Partner Directory 包含 Atlassian、Stripe、Zapier 等;企业客户已在法律、财务、数据科学等领域生产使用。Anthropic 内部工程师使用 Claude 完成了 60% 的工作,报告 50% 生产力提升。

社区规模爆发

社区核心辩论

Hacker News 上的讨论(Addy Osmani 文章,252 points, 115 comments)揭示了三种声音:

安全隐患

Bosch/CMU 研究揭示了严重的安全风险:

Anthropic 在官方文档中明确警告:Skills 等同于安装软件,恶意 Skill 可导致数据泄露和未授权系统访问。


5. 跨系统对比分析

全景结构化对比

系统指令格式渐进式加载路由方式Eval 体系设计哲学
Perplexity ComputerSKILL.md(目录式)三级 Token 预算Description 即路由触发器完整四类 EvalContext as Infrastructure
Claude CodeCLAUDE.md + SKILL.mdSkills 按需加载隐式路由(description 含触发词)无内置 EvalContext as Personalization
Cursor.mdc(四种触发模式)Agent Requested 按需拉取description + glob pattern无内置 EvalContext as IDE Configuration
OpenAI Codex CLIAGENTS.md + SKILL.mddescription 摘要→完整 Skilldescription 驱动路由无公开 Eval快速跟进策略
GitHub Copilotcopilot-instructions.md无(全量注入)无显式路由无 EvalContext as Repository Convention
Aider / Google JulesCONVENTIONS.md / AGENTS.mdContext as Minimal Convention

Perplexity 方法的独特优势

  1. Token 经济学工程化:唯一将 Token 成本明确量化为三级预算的系统
  2. 路由优先的开发方法论:唯一明确声明"description 是路由触发器,不是文档"的系统
  3. 评估驱动的生命周期:Eval 前置于开发(Step 0),是同类中最完善的
  4. Gotchas Flywheel:独创的 append-mostly 维护模式

Perplexity 方法的局限

  1. 极高维护成本:“If your Skill is easy to write, it is probably too long or shouldn’t exist”——人力密集,不适合小团队
  2. 生态封闭:用户无法自定义 Skill,是平台锁定模型
  3. 系统复杂度:三级加载 + depends + frontmatter stripping——实现和调试门槛高
  4. 互操作性缺失:与 Claude Code/Codex CLI 高度相似但不完全兼容

6. 概念系统映射

核心类比:为一个有注意力缺陷的天才设计工作记忆辅助系统

Agent Skill 本质上是一个面向 LLM 的延迟加载知识分发系统。经过分析,用两个类比领域来映射其工程机制和信息经济学:

编译器/链接器系统(工程机制映射)

Agent Skill 概念编译器概念为什么准确
Index 层预处理符号扫描廉价全局扫描,建立路由索引
Description函数签名/导出符号匹配规则,不是内容描述
Load 层编译到 IR中等成本的语义加载
Runtime 文件动态链接库(dlopen)按需、高成本、延迟加载
scripts/预编译静态库“Give it code to compose, not reconstruct”
Gotchas编译器警告规则(-Wall)负面案例驱动的增量防御
Eval测试套件 + CI路由精度 ≈ 符号解析测试
depends:链接器依赖图递归依赖解析

图书馆知识管理系统(信息经济学映射)

Agent Skill 概念图书馆概念为什么准确
Skill Index目录卡片柜每张卡片 = name+description,读者据此决定是否取书
Description主题词(LCSH)不是描述书的内容,而是描述检索入口
三层加载目录→文摘→全文成本递增、时间递增
Hub-and-Spoke开架→密集书库→特藏室高频资源放近处,低频资源放远处
“Every Skill is a tax”馆藏维护成本每多一本书 = 分类+排架+盘点成本
多层嵌套DDC/LCC 分类法层级用分层降低选择复杂度

类比失效的边界

两个类比的共同局限在于:Skill 面向的消费者既不是确定性机器(编译器),也不是有常识的人类(图书馆读者),而是一个"什么都知道但偶尔在最基础的事上犯错"的概率性智能体。 Skill 的核心目的是让模型做"没有这个 Skill 就不会做的事”——这是一种行为编程(behavioral programming),在传统系统中没有精确对应。

此外,一个关键差异是全局负外部性:在编译器中添加新目标文件不会让已有文件编译失败,但添加新 Skill 可能让所有其他 Skill 的路由质量下降(Index 的注意力预算被稀释)。Perplexity 原文:“Every time you add an additional Skill, you risk making every other Skill slightly worse.”


7. 落地建议与风险矩阵

适用场景(10 个)

#场景适用度核心原因推荐方案
1个人开发者自建 Skills已在做的事情和方法论高度契合改写 description 为 “Load when…” 格式
2企业团队共享 Skills 库统一规范,减少不一致控制总量 15-20 个,每个有明确 owner
3代码审查自动化极高模型基础能力够用但需领域特定指导gotchas 聚焦团队规范和历史 bug 模式
4客户支持 Agent极高三层渐进加载的理想场景按产品/问题类型多层嵌套
5数据分析流水线确定性逻辑放 scripts/,条件加载放 references/“Give it code to compose, not reconstruct”
6多 Agent 协作系统三级分类(系统/用户/项目),per-user 隔离用户级优先级高于系统级
7开源项目贡献规范中高gotchas 对不熟悉项目的贡献者价值极高AGENTS.md(跨系统兼容)+ 可选 SKILL.md
8文档生成与维护模型基础能力较强的领域先跑无 Skill 基线,4/5 可接受就不需要 Skill
9个人知识管理 Agent个人偏好 = 模型训练数据中没有的信息按操作拆分为多个小 Skill
10安全审计中高Trail of Bits 已发布 security review Skillgotchas 聚焦已知漏洞模式和检查清单

不适合的场景

场景原因
通用编程任务(Git、Docker、npm)“If it’s easy to explain, the model already knows it. Delete it.”
快速变化的 API/工具“If it’s changing faster than you can maintain it, you don’t need a Skill.”
一次性任务Skill 的价值在于复用,一次性任务一句话 prompt 足矣
纯信息查询Skill 是改变行为,不是数据库
全局适用的高频需求应该放 CLAUDE.md 全局上下文,不做成条件加载的 Skill
少于 3 次的重复任务创建 Skill 需 4-8 小时,至少 3 次复用才能摊薄成本

风险矩阵

风险概率影响缓解措施
上下文污染(低质量 Skill 降低整体能力)高 (60%)每个Skill必须通过"无Skill基线对比"测试;SkillsBench:16/84任务出现负面影响
路由脱靶(不该加载时加载)中 (40%)中高description用"Load when…"+真实查询关键词;建立负面eval
自生成 Skill 陷阱高 (70%)研究数据:自生成Skill平均效果-1.3pp;必须由人类专家审校
维护漂移(内容与需求脱节)高 (50%)快变内容放scripts/(runtime层),不放SKILL.md
模型更新导致失效中 (30%)中高Perplexity发现"Sonnet and GPT behave quite differently”;建立跨模型eval
过度工程化高 (60%)低中“Would the agent get this wrong without this instruction?“如果不会,不需要Skill

推荐实施路径

Phase 0(1-2 天):现状审计——列出现有 Skill,每个跑"Pascal 测试”(删除一句话看行为是否变差),改写所有 description 为 “Load when…” 格式,记录无 Skill 基线。

Phase 1(1 周):核心 Skill 优化——建立黄金测试集(每个 Skill 3-5 个用例),重构为 Hub-and-Spoke 结构(SKILL.md <=3000 tokens),建立 Gotchas 部分,跨模型验证核心 Skill。

Phase 2(2-4 周):体系建设——建立 Skill PR 评审清单,实现 Index 层 Token 成本告警(>3000 tokens 时警告),建立季度审计流程。

隐性成本

项目每会话成本月成本(50 会话/天)
10 Skill Index 层1,000 tokens ≈ $0.003$4.50/月
每会话激活 1 个 Skill Load 层$0.015$22.50/月
Runtime 层~2,000-20,000 tokens/次取决于频率
总计~$0.02-0.05/会话~$30-75/月

维护时间:10 个 Skill 的月度维护约 4-8 小时(含 gotchas 追加、eval 更新、跨模型验证)。


8. 交叉发现(跨维度洞察)

洞察 1:Skill 不是文档,是行为编程

维度 2(核心原理)和维度 3(实现方案)交叉揭示了一个深层认知:Skill 的消费者是 LLM 而非人类。因此,人类的好习惯(简洁、显式、稀疏的代码风格)在 Skills 上下文中变成了反模式。Perplexity 的 “Zen of Skills vs Zen of Python” 对比表揭示:LLM 已经知道 git 命令怎么用,不需要你列出命令序列;它需要的是你告诉它哪里容易出错(gotchas)。

洞察 2:分层信息架构的普遍有效性

维度 1(历史演进)的四代演化和维度 6(概念映射)的双重类比共同指向一个结论:从编译器的命名空间到图书馆的杜威分类法,从人类认知的 7±2 到 LLM 路由的层次化选择,分层是处理复杂信息选择问题的普适策略。Perplexity 的税法 Skill(1,945 条三层嵌套)是这个普适原理在 LLM 上下文管理中的首次大规模验证。

洞察 3:社区"蛇油"论有道理,但不完整

维度 4(生态现状)中 Hacker News 的"蛇油"论(~30%)和维度 2 的学术数据形成对话。SkillsBench 的数据(自生成 Skill -1.3pp,人工策展 +16.2pp)支持了"低质量 Skill 确实有害"的批评。但"30 年经验工程师报告质变"的实用主义声音同样有道理——关键区别在于Skill 的质量而非 Skill 的概念本身。16/84 个任务出现负面影响的数据量化了这个边界:Skill 不是万灵药,而是需要精心设计的手术工具。

洞察 4:分发是下一个战场,安全是最大隐患

维度 4 揭示的两个关键趋势将主导 Skill 生态的下一步发展:

  1. 分发困境(HN 用户 latand6 提出):最有用的 Skill 都很小(一个 md 文件 + 可能一个脚本),不值得变成 GitHub repo,但跨机器/跨团队共享又需要 package manager 级别的解决方案。Microsoft 的 APM(agent package manager)正在尝试解决。

  2. 安全隐患:9% 的已发布 Skills 属于关键风险类别,40% 触及敏感数据。Anthropic 官方警告"Skills 等同于安装软件”——但当前缺乏平台级的沙箱和权限控制。

洞察 5:EvoSkills 暗示自动化的未来方向

维度 1 提到的 EvoSkills(Zhang et al., 2026)与维度 2 的 Gotchas Flywheel 是同一思路的学术实现和工程实现。EvoSkills 的 5 轮协同进化达到 71.1% pass rate(远超人类编写的 53.5%),暗示自动化的 Skill 生成/精炼是可行的,但需要迭代的验证循环。这指向一个未来方向:Skill 的创建可能从纯手工转向"人机协同的迭代精炼"模式。


风险与局限

方法论自身局限

  1. 人力密集:高质量 Skill 需要领域专家手动策展,且需要持续维护。EvoSkills 暗示未来可能部分自动化,但目前仍需人类主导。

  2. 系统特异性:Perplexity 的方法论高度绑定其 Computer 产品的三层加载架构。其他 Agent 系统的上下文注入机制可能需要不同的优化策略。

  3. 评估偏差:Eval 的有效性依赖于测试用例的覆盖度。对于长尾场景,“append-mostly” 的 gotchas 模式可能永远无法收敛。

  4. 模型依赖:不同模型对同一 Skill 的行为不一致(“Sonnet and GPT behave quite differently”),Skill 的有效性可能随模型更新而漂移。

本分析的局限


信息可信度说明

信源等级定义本报告中的信源
★★★★★一手信源,经过同行评审或官方确认Perplexity 原文、官方博客、Brown 2020 (NeurIPS)、Schick 2023 (NeurIPS)、Liu 2023 (TACL)、Jiang 2023 (EMNLP)、Codex CLI 源码
★★★★二手权威信源或未经评审的严谨研究VentureBeat 报道、EvoSkills (arXiv)、SkillsBench (arXiv)、Bosch/CMU 研究 (arXiv)
★★★权威个人/组织观点,无独立验证Addy Osmani、Karpathy、Garry Tan、Simon Willison 评论
★★社区讨论,用于感知趋势HN 评论、Reddit 讨论、Medium 博客

量化数据标注:所有百分比和数值均标注了来源。来自 SkillsBench 和 EvoSkills 的数据基于 arXiv 预印本,未经独立复现。


附录:关键信息源

#信源类型链接
1Perplexity Agents Team (2026), “Designing, Refining, and Maintaining Agent Skills at Perplexity”一手方法论Perplexity Research
2Brown et al. (2020), “Language Models are Few-Shot Learners”学术 (NeurIPS)arXiv:2005.14165
3Liu et al. (2023), “Lost in the Middle: How Language Models Use Long Contexts”学术 (TACL)arXiv:2307.03172
4Schick et al. (2023), “Toolformer: Language Models Can Teach Themselves to Use Tools”学术 (NeurIPS)arXiv:2302.04761
5Jiang et al. (2023), “LLMLingua: Compressing Prompts for Accelerated Inference”学术 (EMNLP)arXiv:2310.05736
6Xiao et al. (2023), “Efficient Streaming Language Models with Attention Sinks”学术 (arXiv)arXiv:2309.17453
7Li et al. (2026), “SkillsBench: Benchmarking Agent Skills”学术 (arXiv)arXiv:2602.12670
8Zhang et al. (2026), “EvoSkills: Co-evolutionary Skill Generation”学术 (arXiv)arXiv:2604.01687
9Ling et al. (2026), Bosch Research + CMU 大规模 Skills 量化研究学术 (arXiv)arXiv:2602.08004
10OpenAI Codex CLI 源码 (codex-rs/core-skills/)开源源码GitHub
11Anthropic Skills 规范官方文档agentskills.io
12Miller (1956), “The Magical Number Seven, Plus or Minus Two”经典理论Psychological Review