Google 与 EPFL 研究团队联合推出名为 Simula 的推理驱动型合成数据生成与评估框架。该框架旨在解决专业 AI 领域(如网络安全、法律推理和医疗)数据匮乏及隐私限制问题。与传统方法不同,Simula 无需依赖目标分布的种子数据、手工提示或进化算法,而是将数据生成视为机制设计问题,从第一性原理出发构建数据集。
Simula 将生成过程分解为四个可控步骤:首先通过分层分类法确保全局多样性;其次通过生成“元提示”实现局部多样性,防止模式崩溃;第三步通过用户可配置的比例提升数据复杂度;最后采用“双重批评”方法验证质量,以缓解大模型的阿谀偏见。实验表明,全局与局部多样性结合对下游模型性能提升至关重要。
在使用 Gemini 2.5 Flash 和 Gemma 3 4B 进行的测试中,Simula 在多个领域表现优于基线方法。研究发现,复杂数据仅在教师模型足够强大时才有益;当教师模型能力较弱时(如在 LEXam 法律考试中准确率仅 57%),高复杂度反而会降低性能。此外,Simula 生成的数据在分类覆盖度上优于真实世界参考数据集,且数据扩展规律受属性驱动而非单纯规模,能用更少样本实现更高性能。