AI样本效率差距显著：前沿模型训练数据量达人类一生接触量百万倍

OmniTools 6月20日消息，近期研究指出，智能的关键衡量维度之一是样本效率，但当前AI进展主要依赖扩大数据规模与提升算力。强化学习本质上可视为合成数据生成机制：通过大量算力运行验证器筛选高质量数据，进而训练模型预测正确输出。

该过程高度依赖各领域人类专家提供的海量示例，已推动数据标注与蒸馏服务形成数十亿美元规模的产业。Epoch最新报告显示，开源大模型性能仅比前沿闭源模型落后约4个月，主因在于训练数据可通过公开API进行蒸馏，而超参数调优等核心工艺仍难复现。

数据对比显示，人类一生接触的语言信息约2亿token，而当前前沿模型训练需数十至数百T token，差距近百万倍；机器人、自动驾驶等现实世界AI应用同样面临显著的样本效率瓶颈。