Lost Temple

来源:TechCrunch

微软开源了 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)——一个用自然语言产品规范自动生成 AI 行为测试的评估框架。

它做了什么

ASSERT 把你的产品需求文档(“AI 不应该给公司外的人发邮件”)自动转化为可执行的测试用例:规范解析 → 测试生成 → 推理执行 → OTel 轨迹捕获 → LLM 裁判评分。整个管线是框架无关的——LangGraph、CrewAI、OpenAI Agents SDK、DSPy 都能接。

杀手锏

OpenTelemetry 追踪。大多数评估工具只看输入输出,ASSERT 能看到 Agent 内部的工具调用、路由决策、模型调用和延迟。对调试复杂 Agent 行为是降维打击。

诚实限制

LLM-as-Judge 的循环依赖问题(用 LLM 评估 LLM)、三重 API 调用成本、规范质量决定测试质量、竞品(Promptfoo/DeepEval/Ragas)已成熟。

一句话

ASSERT 的价值在于把"从 0 到有测试"的门槛降到极低。10 分钟内从零变成有覆盖。至于覆盖率够不够,那是第二步的事。

“evaluations are absolutely critical to making good decisions… if you really want to have a trustworthy system, you should evaluate many more dimensions that are application-specific.”

Sarah Bird, CPO of Responsible AI at Microsoft

交互式深度解读:microsoft-assert-ai-behavior-testing.html