同一套权重跑64遍,效果碾压参数翻倍的模型——循环Transformer正在颠覆AI推理

同一套权重跑64遍,效果碾压参数翻倍的模型——循环Transformer正在颠覆AI推理

770M 参数,干翻 1.3B 模型。

不是蒸馏,不是剪枝,不是任何你听过的优化手段。只是把同一套权重,循环跑了 16 次。

这个项目叫 OpenMythos,GitHub 上 14.6k Star,作者 Kye Gomez,22 岁。他用纯 PyTorch 从公开论文出发,理论重建了 Anthropic 最神秘的 Claude Mythos 架构。

MIT 协议开源。任何人都能用。

一个 Anthropic 不愿解释的现象

先说背景。

Claude 的 Mythos 版本在推理能力上出现了质的跳跃——它能在不输出任何中间步骤的情况下完成多步推理。没有 Chain-of-Thought,没有可见的思考过程,答案直接蹦出来,而且是对的。

传统 Transformer 解释不了这件事。GPT、LLaMA 这些模型,推理深度等于网络层数,推理时不能加层。要更深?只能多输出 token 来"展示"思考过程。

但 Mythos 不需要。它在某个看不见的地方,静默地完成了推理。

Anthropic 没有公开架构细节。Project Glasswing 只开放给了 50 家机构内测。Mythos 的黑箱里到底装了什么,外界只能猜。

Kye Gomez 决定自己搞清楚。

答案:循环深度 Transformer

OpenMythos 给出的核心假设:Claude Mythos 的底层是循环深度 Transformer(Recurrent-Depth Transformer)

原理不复杂,但很反直觉。

传统 Transformer 像 100 层楼,每层不同装修,数据从 1 楼走到 100 楼,每层只过一次。参数量跟层数绑死。

循环 Transformer 像一栋 6 层楼,但数据在楼里绕了 16 圈。同一套权重,同样的注意力机制,同样的 FFN,反复处理同一批数据。每绕一圈,隐状态就更深一层。

770M 参数 × 16 次循环 ≈ 1.3B 参数模型的推理深度。

关键区别:参数不增,推理深度可调

三段式架构:入口、循环、出口

具体怎么实现的?三段式结构:

第一段:Prelude(前奏)——标准 Transformer 层,跑一遍,把输入 token 编码成隐状态和输入注入向量 e。

第二段:Recurrent Block(循环体)——核心。隐状态 h 每次循环被更新:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

注意那个 e。输入注入向量每次循环都参与,防止隐状态在反复循环中"漂移"——忘了自己在推理什么。

第三段:Coda(尾奏)——标准 Transformer 层,跑一遍,把循环后的隐状态解码成输出 logits。

进,循环,出。就这么简单?

当然不是。简单背后藏了六个精巧的创新模块,每一个都解决了循环架构的致命问题。

六个救命的发明

① LTI 稳定注入——防止训练爆炸

循环模型最怕什么?隐状态跨循环无界增长。残差一路累积,训练突然发散,loss 飙到天上。

OpenMythos 的解法极其优雅:把循环建模为离散线性时不变系统,通过数学构造保证谱半径 ρ(A) < 1。无论学习率多高、batch 噪声多大,A 矩阵的谱半径恒小于 1。训练不会爆炸。

一行核心代码:

def get_A(self):
    return torch.exp(-torch.exp((self.log_dt + self.log_A).clamp(-20, 20)))

exp(-exp(x)) 永远在 (0, 1) 之间。数学保证了稳定性,不是调参调出来的。

② 自适应计算时间(ACT)——防止过度思考

循环次数越多越好?错。超过某个深度,过度循环反而降低预测质量。

解法:每个位置学一个停机概率,累积概率超过 0.99 就停止更新。简单 token 早停,困难 token 多算。同一个 batch 里,不同 token 可以在不同深度退出。

附带一个理论彩蛋:在特定假设下,ACT 机制让模型图灵完备

③ 循环索引嵌入——让每圈循环不一样

同一套权重跑 16 次,每次做一样的事?那循环毫无意义。

解法:类似 RoPE 对序列位置编码,对循环深度也注入正弦位置信号。同一个注意力层,在第 3 次循环和第 12 次循环中,接收到的位置信号不同,执行的操作也不同。

④ 深度 LoRA 适配器——参数共享与表达力的平衡

纯权重绑定表达力不够,完全不同权重又无参数节省。

解法:共享大权重矩阵 + 每个循环深度一个 rank-r 的小适配器。总参数开销极小,但每个循环的行为微妙地不同。

⑤ 双注意力机制——GQA / MLA 可切换

  • GQA:KV 头数少于 Q 头数,减少 KV cache,支持 Flash Attention 2
  • MLA(DeepSeek-V2 风格):缓存压缩的 KV 隐变量,内存减少 10-20 倍

生产环境用 MLA,训练用 GQA,一行配置切换。

⑥ 细粒度 MoE——广度覆盖

循环架构解释了推理深度,但领域广度怎么办?

64-512 个小型 SwiGLU FFN 作为路由专家,每个 token 激活 top-K(约 5% 激活率)。加上始终激活的共享专家,吸收跨领域通用知识。

最精妙的一点:随隐状态在循环中演化,路由器可能在不同深度选择不同专家子集。同一次前向传播里,每次循环在计算上是独特的。

一组反直觉的数据

变体 参数量 循环次数 上下文 最大输出
mythos_1b 1B 16 4k 4k
mythos_10b 10B 24 8k 4k
mythos_100b 100B 32 1M 128k
mythos_1t 1T 64 1M 128k

100B 以上的变体,上下文窗口跳到 1M tokens,输出 128k。循环深度从 16 次到 64 次,推理时还能继续加——训练 16 次循环,推理时跑 32 次照样能提升性能。这叫深度外推,传统 Transformer 做不到。

训练 6 层推理,测试时推到 10 层还能正确回答。GPT 做不到。

三个只有循环架构才有的超能力

超能力一:连续隐空间推理 > 离散 token 推理

Chain-of-Thought 每一步只能选一个方向,类似深度优先搜索。循环 Transformer 在连续隐空间操作,可以同时编码多个备选下一步——类似广度优先搜索。不是一条路走到黑,而是并行探索多条路径。

超能力二:三阶段 Grokking

循环 Transformer 的系统化泛化不是渐进的,而是三个阶段相变涌现:记忆 → 分布内泛化 → 系统化泛化。第三个阶段是突然、急剧地涌现的。

这解释了为什么 Mythos 在全新问题上感觉"质的不同"——能力是相变进入的,不是渐进出现的。

超能力三:推理时可扩展

传统模型训练完就定型了。循环模型在推理时可以动态调整计算量——简单问题少循环,复杂问题多循环。同一模型、同一 batch、不同 token,计算量自适应分配。

五行代码就能跑

from open_mythos import MythosModel, MythosConfig

config = MythosConfig(dim=2048, num_experts=64, loop_iters=16)
model = MythosModel(config)

output = model(input_ids)  # 单次前向传播,内部循环16次

pip install open-mythos,本地就能跑 1B 变体。不需要多卡,不需要分布式。

冷静一下

说清楚几件事。

OpenMythos 是理论重建,不是代码泄露。它基于公开学术论文推导,和 Anthropic 的真实实现可能有差异。

目前没有预训练权重。你能跑架构,但不能直接拿来用——得自己训练。3B 训练脚本用 PyTorch FSDP 写好了,数据集是 FineWeb-Edu,但训练成本不低。

和 Anthropic 没有任何关系。项目声明写得很明确。

循环架构到底意味着什么

传统 Transformer 的天花板已经很明显了:堆层数 → 参数爆炸 → 推理成本失控 → 只能靠 CoT 硬撑。

循环架构换了一条路:不堆参数,堆计算。同一套权重多跑几遍,推理深度自由扩展。参数效率和推理能力不再绑死。

770M 打平 1.3B,不是终点。1T 参数 × 64 次循环,推理深度相当于 4000+ 层的传统 Transformer——没有哪个显卡能跑 4000 层,但循环架构只占 1T 的显存。

OpenMythos 是一张蓝图。它证明了一件事:推理能力的飞跃,不需要参数的飞跃

谁说模型一定要越做越大?


项目地址https://github.com/kyegomez/OpenMythos

相关论文

  • Parcae: 循环语言模型的可预测扩展定律 (Prairie et al., 2026)
  • Loop, Think, & Generalize (arXiv 2604.07822)
  • Reasoning with Latent Thoughts (arXiv 2502.17416)
  • Universal Transformers (Dehghani et al., 2018)

评论

暂无评论。

登录后可发表评论。