Hugging Face推出开源模型智能体工具调用能力评测框架

OmniTools 6月18日消息，Hugging Face 6月18日消息，Hugging Face于今日发布博客文章《Is it agentic enough? Benchmarking open models on your own tooling》，介绍一套面向开源模型的智能体（agentic）能力评测框架。该框架聚焦于评估模型在调用工具（如transformers库）时的实际行为过程，而非仅检验最终结果是否正确。

该评测工具支持对不同模型、不同代码版本及不同使用方式（如直接pip安装、源码克隆、CLI技能包）进行多维度对比，指标包括任务匹配率、单次执行耗时、生成/输入token数、错误率以及工具特定行为标记（marker）采纳率等。所有测试均通过Hugging Face Jobs在统一硬件上并行运行，确保结果可比。

研究以transformers库为案例，验证了CLI接口与预置技能（Skill）对智能体效率的影响：大型模型在引入CLI后平均执行时间下降，但源码克隆模式下token消耗上升，反映出智能体需额外阅读新接口文档的成本；小型模型则更依赖匹配率等基础指标。该框架开源，支持适配任意命令行可操作工具。