AI2发布olmo-eval：面向LLM开发周期的开源评估工作台

OmniTools 6月12日消息，艾伦人工智能研究所（AI2）正式发布olmo-eval——一个专为大语言模型（LLM）开发流程设计的开源评估工作台。该工具基于2024年推出的开放语言模型评估标准（OLMES），旨在支持模型在训练迭代过程中高频、可复现的持续评估。

olmo-eval将评估任务（Task）、测试套件（Suite）与执行环境（Harness）解耦，支持灵活配置基准测试、多轮交互评估及工具调用场景，并提供逐题对比分析功能，可识别微小但真实的性能变化，而非仅依赖整体得分。

与聚焦于沙箱化代理评测的Harbor框架不同，olmo-eval默认采用轻量级执行路径，仅对需隔离环境的评测（如代码执行）启用容器化；其模块化设计允许独立替换模型、工具、评判模型等组件，且所有运行配置与结果均按统一结构化格式记录。