查询感知的上下文压缩
Perplexity 如何用抽取式压缩模型在减少 70% token 的同时提高准确率——一次从架构选择到生产优化的完整工程实践。
Part 1: 杂志长文
「手术刀式」压缩:Perplexity 如何用查询感知模型砍掉 70% 的噪声
这篇文章回答的问题:在 RAG 系统中,如何在减少 token 使用的同时提高准确率?
这篇文章应该回答但没回答的问题:当源文档本身就写得不好,或者查询需要跨文档综合时,纯抽取式压缩是否会成为瓶颈?
2026 年 5 月,Perplexity 在其搜索堆栈中悄然上线了一个新模块。它不做生成,不做摘要,只做一件事:像手术刀一样切掉搜索结果中的每一个无用 token。
这个模块的正式名称是查询感知上下文压缩模型(Query-Aware Context Compression Model)。它的核心理念极其简洁——不做"聪明的总结者",只做"精准的筛选者"。
为什么不用生成?一个反直觉的设计选择
在大多数人的直觉中,"压缩"意味着"用自己的话说一遍"。但 Perplexity 明确拒绝了这个路径。原因很实际:
引用保真度
生成式摘要可能改写原文,使引用对齐变得困难。在证据层,忠实度 > 可读性。
幻觉风险
生成可能引入原文中不存在的措辞。当片段用作证据而非最终回答时,这是不可接受的。
干扰项不仅降低了质量,还迫使你为更差的质量支付更多费用。
Distractors don't just reduce quality; they end up forcing you to pay more for that worse quality.
从 28 层到 17 层:教科书级的知识蒸馏
压缩模型的核心骨干是 pplx-diffusion——一个双向编码器,每个 token 可以在决定保留什么之前,先看完整个查询和整个候选上下文。但 28 层的完整模型太慢了。
28 层完整模型
质量基准线。在所有场景下表现最佳,但推理延迟无法满足生产要求。
17 层剪枝 + 蒸馏
甜蜜点。延迟降低 35-40%,GPU 计算降低 40-45%,质量零损失。p99 < 20ms。
11 层激进剪枝
过度压缩的风险。在生产流量密集区域质量明显退化。
一个慢的压缩模型是自我矛盾的——因为更高精度带来的延迟收益被压缩延迟本身所抵消。
A slow compression model is self-defeating, as the latency benefits from higher precision are erased by the compression latency itself.
LLM-as-Judge:用 AI 标注 AI 的训练数据
训练压缩模型需要 75 万个查询-文档对的标注数据。Perplexity 的方案是一个两阶段管道:
查询理解
LLM judge 分析查询,生成可能的用户意图列表,为后续标注提供锚点。
片段标注
基于意图从候选上下文逐字复制相关片段,附类别标签。98% 简单字符串匹配即可恢复。
数据说话:50 倍压缩比,95% 准确率
50x 压缩比
medium 预设达到 95% 准确率,每文档仅 200 token(原文平均 10,000+)。
+4~4.81pp
准确率提升 4-4.81 个百分点,同时 token 使用减少 10-70%。
+63% 关键 token
压缩后关键 token 比例平均增加 63%,UI/导航 -58%,广告 -43%。
最令人惊讶的发现:使用压缩的 "low" 预设超过了无压缩的 "high" 预设——更少的 token,更高的准确率。
文章盲区
没有展示压缩的失败案例 | 没有讨论多语言性能 | 对比中"非 Perplexity 系统"未具名 | 评估使用自有 search_evals 框架
Part 2: 苏格拉底对话
为什么要"砍掉"而不是"总结掉"?
Part 3: 个性化洞察
基于你的技术背景和关注领域,这篇文章提供了几个可直接落地的技术方案。
1. 抽取式 vs 生成式:一个可复用的架构决策模式
Perplexity 放弃生成式摘要的决策逻辑可以抽象为通用判断框架:当系统需要引用保真度(citation fidelity)时,extractive > generative。这个模式不仅适用于搜索 RAG,也适用于任何 AI 产品中涉及"证据呈现"的环节。
2. LLM-as-Judge 标注管道:低成本高质量训练数据
75 万个查询-文档对,LLM judge 标注后 98% 片段通过简单字符串匹配恢复——几乎没有幻觉。这个两阶段管道(查询理解 → 片段标注)可复用于任何需要细粒度文本标注的场景。
3. 知识蒸馏的生产化:标准方案 + 严格量化 > SOTA 技术
Perplexity 的蒸馏方案非常标准——软交叉熵 + 蒸馏系数。关键是量化了每一步的收益:35-40% 延迟降低、40-45% GPU 计算降低、p99 < 20ms。这种"标准方案 + 严格量化"的组合比追求 SOTA 更有实际价值。
4. Token 经济学:压缩改变了 Agent 的搜索策略
文章中最有意思的发现是"非单调性"——压缩不仅节省 token,还可能改变 Agent 搜索策略(更少步骤到达答案)。对任何使用多步 Agent 的系统都有启示:每步的信号质量比总 token 数量更重要。
5. 文章的立场和盲区
Perplexity 卖 API 访问——这篇文章在展示技术实力的同时,也在为 API 平台做营销。需要注意:
- 基准测试使用自有 search_evals 框架——评估设计可能有倾向性
- 对比中"非 Perplexity 搜索系统"未具名——可能有筛选偏倚
- 没有展示压缩的失败案例
- 没有讨论多语言性能
- 长上下文模型(Gemini 1M token)可能在未来降低压缩的必要性