开发者Kye Gomez在GitHub发布开源项目OpenMythos,尝试基于第一性原理对Anthropic尚未公开技术细节的Claude Mythos架构进行理论重建。该项目并非模型泄露或微调版本,而是完全基于PyTorch构建、具备可证伪性的架构假设。
OpenMythos提出Claude Mythos可能采用循环深度Transformer(RDT)架构。该架构由前奏、循环块和尾奏组成,核心在于同一组权重在单次前向传播中多次复用,推理深度由迭代次数决定而非参数量。项目还在循环块中融合了DeepSeekMoE的混合专家机制与DeepSeek-V2的多潜在注意力机制,实现每次迭代动态路由。
针对循环模型常见的残差爆炸与“过度思考”问题,OpenMythos引入线性时不变(LTI)注入约束与自适应计算时间(ACT)停止机制保障稳定性,并辅以深度LoRA适配器区分各迭代步行为。研究指出,770M参数的RDT模型在同等数据下可匹敌1.3B标准Transformer,表明推理能力可通过推理期计算量而非训练参数量进行扩展。