Google与EPFL推出Simula：基于推理优先的可控合成数据生成框架

Google 与 EPFL 研究团队联合推出名为 Simula 的推理驱动型合成数据生成与评估框架。该框架旨在解决专业 AI 领域（如网络安全、法律推理和医疗）数据匮乏及隐私限制问题。与传统方法不同，Simula 无需依赖目标分布的种子数据、手工提示或进化算法，而是将数据生成视为机制设计问题，从第一性原理出发构建数据集。

Simula 将生成过程分解为四个可控步骤：首先通过分层分类法确保全局多样性；其次通过生成“元提示”实现局部多样性，防止模式崩溃；第三步通过用户可配置的比例提升数据复杂度；最后采用“双重批评”方法验证质量，以缓解大模型的阿谀偏见。实验表明，全局与局部多样性结合对下游模型性能提升至关重要。

在使用 Gemini 2.5 Flash 和 Gemma 3 4B 进行的测试中，Simula 在多个领域表现优于基线方法。研究发现，复杂数据仅在教师模型足够强大时才有益；当教师模型能力较弱时（如在 LEXam 法律考试中准确率仅 57%），高复杂度反而会降低性能。此外，Simula 生成的数据在分类覆盖度上优于真实世界参考数据集，且数据扩展规律受属性驱动而非单纯规模，能用更少样本实现更高性能。