微软开源 ASSERT 框架，支持通过自然语言描述生成 AI 行为测试

2026/06/02 19:04

OmniTools 6月3日消息，微软正式发布开源框架 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing），旨在自动化生成面向具体应用场景的 AI 行为评估与回归测试。

该框架允许开发者输入自然语言描述（如预期行为、安全策略或业务规则），自动将其转化为结构化的行为规范，并据此生成测试用例、执行评估及输出量化评分。系统还可记录 AI 的中间决策路径（含工具调用等），便于精准定位失效环节。

例如，针对企业文档研究 AI 代理，开发者可设定“禁止向外部人员发送邮件”“敏感信息仅限高管访问”等约束，ASSERT 将据此持续验证系统合规性。微软表示，该工具有效填补了通用大模型评测在产品级行为验证上的空白，适用于模型开发、上线部署及持续监控全生命周期。

想继续了解，可以看这些

从这条动态出发，继续查看相关分析、产品详情和同主题更新。

从快讯延伸到产品观察、工具对比和行业分析。

按能力、行业和使用场景继续筛选可用工具。

通过自然语言描述快速构建应用与网站，并配套虚拟办公套件，实现从创意到上线的一体化工作流。

面向咖啡馆、健身房、餐厅等线下场所的 AI 智能 DJ 与正版背景音乐服务

AI 智能体远程审批控制面板：通过手机推送实现一键确认与多端协同

AI 驱动的自动化 QA 工具，通过 URL 或 GitHub 仓库自动探索应用、录制会话、发现真实 Bug 并提供根因与修复建议。