OmniTools 5月28日消息,Google 官方博客披露,在 Kaggle 举办的 Tunix 黑客松中,开发者团队在有限算力条件下,依托 TPU 硬件与开源工具 Tunix,成功将小型基础模型 Gemma 升级为具备通用推理能力的模型。
获胜团队采用多阶段后训练流程,融合监督微调(SFT)与 GRPO、SimPO 等先进对齐技术,显著提升了模型的结构化推理表现。该实践验证了开源社区借助可获取算力与开放方法,能够高效训练出高能力推理模型。
OmniTools 5月28日消息,Google 官方博客披露,在 Kaggle 举办的 Tunix 黑客松中,开发者团队在有限算力条件下,依托 TPU 硬件与开源工具 Tunix,成功将小型基础模型 Gemma 升级为具备通用推理能力的模型。
获胜团队采用多阶段后训练流程,融合监督微调(SFT)与 GRPO、SimPO 等先进对齐技术,显著提升了模型的结构化推理表现。该实践验证了开源社区借助可获取算力与开放方法,能够高效训练出高能力推理模型。