同一套权重跑64遍，效果碾压参数翻倍的模型——循环Transformer正在颠覆AI推理

AI架构循环Transformer OpenMythos 开源项目

发布于 2026-07-04 22:46:13 24 次浏览

同一套权重跑64遍，效果碾压参数翻倍的模型——循环Transformer正在颠覆AI推理

770M 参数，干翻 1.3B 模型。

不是蒸馏，不是剪枝，不是任何你听过的优化手段。只是把同一套权重，循环跑了 16 次。

这个项目叫 OpenMythos，GitHub 上 14.6k Star，作者 Kye Gomez，22 岁。他用纯 PyTorch 从公开论文出发，理论重建了 Anthropic 最神秘的 Claude Mythos 架构。

MIT 协议开源。任何人都能用。

一个 Anthropic 不愿解释的现象

先说背景。

Claude 的 Mythos 版本在推理能力上出现了质的跳跃——它能在不输出任何中间步骤的情况下完成多步推理。没有 Chain-of-Thought，没有可见的思考过程，答案直接蹦出来，而且是对的。

传统 Transformer 解释不了这件事。GPT、LLaMA 这些模型，推理深度等于网络层数，推理时不能加层。要更深？只能多输出 token 来"展示"思考过程。

但 Mythos 不需要。它在某个看不见的地方，静默地完成了推理。

Anthropic 没有公开架构细节。Project Glasswing 只开放给了 50 家机构内测。Mythos 的黑箱里到底装了什么，外界只能猜。

Kye Gomez 决定自己搞清楚。

答案：循环深度 Transformer

OpenMythos 给出的核心假设：Claude Mythos 的底层是循环深度 Transformer（Recurrent-Depth Transformer）。

原理不复杂，但很反直觉。

传统 Transformer 像 100 层楼，每层不同装修，数据从 1 楼走到 100 楼，每层只过一次。参数量跟层数绑死。

循环 Transformer 像一栋 6 层楼，但数据在楼里绕了 16 圈。同一套权重，同样的注意力机制，同样的 FFN，反复处理同一批数据。每绕一圈，隐状态就更深一层。

770M 参数 × 16 次循环 ≈ 1.3B 参数模型的推理深度。

关键区别：参数不增，推理深度可调。

三段式架构：入口、循环、出口

具体怎么实现的？三段式结构：

第一段：Prelude（前奏）——标准 Transformer 层，跑一遍，把输入 token 编码成隐状态和输入注入向量 e。

第二段：Recurrent Block（循环体）——核心。隐状态 h 每次循环被更新：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

注意那个 e。输入注入向量每次循环都参与，防止隐状态在反复循环中"漂移"——忘了自己在推理什么。

第三段：Coda（尾奏）——标准 Transformer 层，跑一遍，把循环后的隐状态解码成输出 logits。

进，循环，出。就这么简单？

当然不是。简单背后藏了六个精巧的创新模块，每一个都解决了循环架构的致命问题。

六个救命的发明

① LTI 稳定注入——防止训练爆炸

循环模型最怕什么？隐状态跨循环无界增长。残差一路累积，训练突然发散，loss 飙到天上。

OpenMythos 的解法极其优雅：把循环建模为离散线性时不变系统，通过数学构造保证谱半径 ρ(A) < 1。无论学习率多高、batch 噪声多大，A 矩阵的谱半径恒小于 1。训练不会爆炸。

一行核心代码：

def get_A(self):
    return torch.exp(-torch.exp((self.log_dt + self.log_A).clamp(-20, 20)))

exp(-exp(x)) 永远在 (0, 1) 之间。数学保证了稳定性，不是调参调出来的。

② 自适应计算时间（ACT）——防止过度思考

循环次数越多越好？错。超过某个深度，过度循环反而降低预测质量。

解法：每个位置学一个停机概率，累积概率超过 0.99 就停止更新。简单 token 早停，困难 token 多算。同一个 batch 里，不同 token 可以在不同深度退出。

附带一个理论彩蛋：在特定假设下，ACT 机制让模型图灵完备。

③ 循环索引嵌入——让每圈循环不一样

同一套权重跑 16 次，每次做一样的事？那循环毫无意义。

解法：类似 RoPE 对序列位置编码，对循环深度也注入正弦位置信号。同一个注意力层，在第 3 次循环和第 12 次循环中，接收到的位置信号不同，执行的操作也不同。

④ 深度 LoRA 适配器——参数共享与表达力的平衡

纯权重绑定表达力不够，完全不同权重又无参数节省。

解法：共享大权重矩阵 + 每个循环深度一个 rank-r 的小适配器。总参数开销极小，但每个循环的行为微妙地不同。

⑤ 双注意力机制——GQA / MLA 可切换

GQA：KV 头数少于 Q 头数，减少 KV cache，支持 Flash Attention 2
MLA（DeepSeek-V2 风格）：缓存压缩的 KV 隐变量，内存减少 10-20 倍

生产环境用 MLA，训练用 GQA，一行配置切换。

⑥ 细粒度 MoE——广度覆盖

循环架构解释了推理深度，但领域广度怎么办？

64-512 个小型 SwiGLU FFN 作为路由专家，每个 token 激活 top-K（约 5% 激活率）。加上始终激活的共享专家，吸收跨领域通用知识。

最精妙的一点：随隐状态在循环中演化，路由器可能在不同深度选择不同专家子集。同一次前向传播里，每次循环在计算上是独特的。

一组反直觉的数据

变体	参数量	循环次数	上下文	最大输出
mythos_1b	1B	16	4k	4k
mythos_10b	10B	24	8k	4k
mythos_100b	100B	32	1M	128k
mythos_1t	1T	64	1M	128k

100B 以上的变体，上下文窗口跳到 1M tokens，输出 128k。循环深度从 16 次到 64 次，推理时还能继续加——训练 16 次循环，推理时跑 32 次照样能提升性能。这叫深度外推，传统 Transformer 做不到。

训练 6 层推理，测试时推到 10 层还能正确回答。GPT 做不到。

三个只有循环架构才有的超能力

超能力一：连续隐空间推理 > 离散 token 推理

Chain-of-Thought 每一步只能选一个方向，类似深度优先搜索。循环 Transformer 在连续隐空间操作，可以同时编码多个备选下一步——类似广度优先搜索。不是一条路走到黑，而是并行探索多条路径。

超能力二：三阶段 Grokking

循环 Transformer 的系统化泛化不是渐进的，而是三个阶段相变涌现：记忆 → 分布内泛化 → 系统化泛化。第三个阶段是突然、急剧地涌现的。

这解释了为什么 Mythos 在全新问题上感觉"质的不同"——能力是相变进入的，不是渐进出现的。

超能力三：推理时可扩展

传统模型训练完就定型了。循环模型在推理时可以动态调整计算量——简单问题少循环，复杂问题多循环。同一模型、同一 batch、不同 token，计算量自适应分配。

五行代码就能跑

from open_mythos import MythosModel, MythosConfig

config = MythosConfig(dim=2048, num_experts=64, loop_iters=16)
model = MythosModel(config)

output = model(input_ids)  # 单次前向传播，内部循环16次

pip install open-mythos，本地就能跑 1B 变体。不需要多卡，不需要分布式。

冷静一下

说清楚几件事。

OpenMythos 是理论重建，不是代码泄露。它基于公开学术论文推导，和 Anthropic 的真实实现可能有差异。

目前没有预训练权重。你能跑架构，但不能直接拿来用——得自己训练。3B 训练脚本用 PyTorch FSDP 写好了，数据集是 FineWeb-Edu，但训练成本不低。

和 Anthropic 没有任何关系。项目声明写得很明确。

循环架构到底意味着什么

传统 Transformer 的天花板已经很明显了：堆层数 → 参数爆炸 → 推理成本失控 → 只能靠 CoT 硬撑。

循环架构换了一条路：不堆参数，堆计算。同一套权重多跑几遍，推理深度自由扩展。参数效率和推理能力不再绑死。

770M 打平 1.3B，不是终点。1T 参数 × 64 次循环，推理深度相当于 4000+ 层的传统 Transformer——没有哪个显卡能跑 4000 层，但循环架构只占 1T 的显存。

OpenMythos 是一张蓝图。它证明了一件事：推理能力的飞跃，不需要参数的飞跃。

谁说模型一定要越做越大？

项目地址：https://github.com/kyegomez/OpenMythos

相关论文：

Parcae: 循环语言模型的可预测扩展定律 (Prairie et al., 2026)
Loop, Think, & Generalize (arXiv 2604.07822)
Reasoning with Latent Thoughts (arXiv 2502.17416)
Universal Transformers (Dehghani et al., 2018)

同一套权重跑64遍，效果碾压参数翻倍的模型——循环Transformer正在颠覆AI推理

一个 Anthropic 不愿解释的现象

答案：循环深度 Transformer

三段式架构：入口、循环、出口

六个救命的发明

一组反直觉的数据

三个只有循环架构才有的超能力

五行代码就能跑

冷静一下

循环架构到底意味着什么

评论