OmniTools 6月12日消息,艾伦人工智能研究所(AI2)正式发布olmo-eval——一个专为大语言模型(LLM)开发流程设计的开源评估工作台。该工具基于2024年推出的开放语言模型评估标准(OLMES),旨在支持模型在训练迭代过程中高频、可复现的持续评估。
olmo-eval将评估任务(Task)、测试套件(Suite)与执行环境(Harness)解耦,支持灵活配置基准测试、多轮交互评估及工具调用场景,并提供逐题对比分析功能,可识别微小但真实的性能变化,而非仅依赖整体得分。
与聚焦于沙箱化代理评测的Harbor框架不同,olmo-eval默认采用轻量级执行路径,仅对需隔离环境的评测(如代码执行)启用容器化;其模块化设计允许独立替换模型、工具、评判模型等组件,且所有运行配置与结果均按统一结构化格式记录。