Lost Temple

来源:How Anthropic enables self-service data analytics with Claude | Anthropic Blog | 2026-06-03

Anthropic 数据科学团队分享了他们用 Claude + Skill 系统将内部商业分析查询自动化率提升到 95% 的完整方法论。核心不是让 Agent 更聪明地写 SQL,而是通过数据治理、结构化参考文档和严谨的评估体系,让 Agent 根本不需要"猜"。

问题本质

编程 Agent 有编译器、测试、类型系统做验证,但分析 Agent 的输出没有编译器检查。分析准确率问题是"上下文和验证问题,不是代码生成问题"。

三大失败模式:概念-实体歧义、数据陈旧、检索失败。

核心方案

三层防御架构:

没有 Skill 时准确率 21%,有 Skill 后 95%+,某些领域 99%。

关键消融实验

给 Agent 直接访问数千条历史 SQL → 准确率几乎不变。80% 的情况下答案就在语料库里,Agent 看到了,但没用。瓶颈不是信息访问,而是结构化映射。

Skill 准确率从 95% 在一个月内漂移到 65%。90% 的数据模型 PR 必须包含 Skill 变更。

诚实承认的局限

“静默错误”——答案错误但看起来合理——目前没有解决方案。

完整翻译解读见 交互式 HTML 版本