OmniTools 6月3日消息,微软正式发布开源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing),旨在自动化生成面向具体应用场景的 AI 行为评估与回归测试。
该框架允许开发者输入自然语言描述(如预期行为、安全策略或业务规则),自动将其转化为结构化的行为规范,并据此生成测试用例、执行评估及输出量化评分。系统还可记录 AI 的中间决策路径(含工具调用等),便于精准定位失效环节。
例如,针对企业文档研究 AI 代理,开发者可设定“禁止向外部人员发送邮件”“敏感信息仅限高管访问”等约束,ASSERT 将据此持续验证系统合规性。微软表示,该工具有效填补了通用大模型评测在产品级行为验证上的空白,适用于模型开发、上线部署及持续监控全生命周期。