微软 ASSERT：用自然语言给 AI Agent 写行为测试

来源：TechCrunch

微软开源了 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing）——一个用自然语言产品规范自动生成 AI 行为测试的评估框架。

它做了什么

ASSERT 把你的产品需求文档（“AI 不应该给公司外的人发邮件”）自动转化为可执行的测试用例：规范解析 → 测试生成 → 推理执行 → OTel 轨迹捕获 → LLM 裁判评分。整个管线是框架无关的——LangGraph、CrewAI、OpenAI Agents SDK、DSPy 都能接。

杀手锏

OpenTelemetry 追踪。大多数评估工具只看输入输出，ASSERT 能看到 Agent 内部的工具调用、路由决策、模型调用和延迟。对调试复杂 Agent 行为是降维打击。

诚实限制

LLM-as-Judge 的循环依赖问题（用 LLM 评估 LLM）、三重 API 调用成本、规范质量决定测试质量、竞品（Promptfoo/DeepEval/Ragas）已成熟。

一句话

ASSERT 的价值在于把"从 0 到有测试"的门槛降到极低。10 分钟内从零变成有覆盖。至于覆盖率够不够，那是第二步的事。

“evaluations are absolutely critical to making good decisions… if you really want to have a trustworthy system, you should evaluate many more dimensions that are application-specific.”
Sarah Bird, CPO of Responsible AI at Microsoft

交互式深度解读：microsoft-assert-ai-behavior-testing.html