返回行业动态

Hugging Face推出开源模型智能体工具调用能力评测框架

2026/06/18 12:52
查看原文

OmniTools 6月18日消息,Hugging Face 6月18日消息,Hugging Face于今日发布博客文章《Is it agentic enough? Benchmarking open models on your own tooling》,介绍一套面向开源模型的智能体(agentic)能力评测框架。该框架聚焦于评估模型在调用工具(如transformers库)时的实际行为过程,而非仅检验最终结果是否正确。

该评测工具支持对不同模型、不同代码版本及不同使用方式(如直接pip安装、源码克隆、CLI技能包)进行多维度对比,指标包括任务匹配率、单次执行耗时、生成/输入token数、错误率以及工具特定行为标记(marker)采纳率等。所有测试均通过Hugging Face Jobs在统一硬件上并行运行,确保结果可比。

研究以transformers库为案例,验证了CLI接口与预置技能(Skill)对智能体效率的影响:大型模型在引入CLI后平均执行时间下降,但源码克隆模式下token消耗上升,反映出智能体需额外阅读新接口文档的成本;小型模型则更依赖匹配率等基础指标。该框架开源,支持适配任意命令行可操作工具。