0.22B 干翻 11.9B：华科和 VIVO 造了个修图模型，参数连 FLUX 的零头都不到

Moebius 图像修复 AI修图开源模型 ECCV2026

发布于 2026-07-01 03:52:37 11 次浏览

0.22B 干翻 11.9B：华科和 VIVO 造了个修图模型，参数连 FLUX 的零头都不到

AI 修图圈有个不成文的规矩——模型越大，效果越好。

FLUX.1-Fill-Dev 11.9B 参数，SD3.5 Large 更是往 10B+ 级别冲，跑一次占满一张 A100。行业默认：想出好活，先堆算力。

然后华科 + VIVO AI Lab 拿出了 Moebius。

0.22B 参数。2.26 亿。

不到 FLUX 的 2%，推理速度快了 15 倍，单张 GPU 每步 26 毫秒。6 个标准评测集上，效果叫板 FLUX.1-Fill-Dev——人脸细节和复杂纹理，甚至反超了。

项目已被 ECCV 2026 接收，代码权重全部开源，Apache-2.0 协议。Hugging Face 日榜第 1、周榜第 4。

两个数字，一个反常识

先看硬指标。

参数量对比：

FLUX.1-Fill-Dev：11.9B
SD3.5 Large-Inpainting：10B+
Moebius：0.22B

推理速度对比：

FLUX：每步约 390ms
Moebius：每步 26ms
加速比：>15×

效果对比（6 个 Benchmark）：

在 CelebA-HQ、FFHQ、Places2 等六个数据集上，Moebius 的 PSNR、SSIM、LPIPS 指标与 FLUX.1-Fill-Dev 基本持平，在人像和复杂纹理场景上甚至略优。

这不是魔法，这是架构创新 + 知识蒸馏的组合拳。

怎么做到的？

第一拳：LλMI 注意力模块

传统 Attention 的计算量跟序列长度是平方关系——图像分辨率一上去，计算量爆炸。这是大模型不得不大的根本原因之一。

Moebius 设计了 LλMI（Learnable λ-Matrix Integration）模块，把空间上下文和全局语义压缩成固定大小的矩阵。不管输入图像多大，注意力计算量恒定。

绕开了平方级计算开销，同时保留了足够的上下文信息。这是它能把参数压到 0.22B 还不掉效果的关键。

第二拳：知识蒸馏

Moebius 不是从零训练的。它用 PixelHacker（同一团队之前的工作，参数量大得多）作为教师模型，通过多粒度知识蒸馏把「功力」迁移过来。

蒸馏不是简单复制输出。Moebius 设计了分层蒸馏策略——特征级、逻辑级、像素级三个维度同时蒸馏，确保轻量模型不只是「学个形似」，而是真正理解图像的语义结构。

结果很直观：学生模型在人像任务上，部分指标超过了老师。

这说明什么？特定任务的专家模型，不需要通用大模型那么多的参数冗余。

实际效果怎么样？

说数据不如看图。

自然场景修复（Places2）：

传统方法在复杂纹理上翻车是常态——天空颜色不连续、草地纹理断裂、建筑结构扭曲。FLUX 和 SD3.5 虽然整体不错，但在局部细节上仍能看到色差和伪影。

Moebius 在这些场景下表现稳定，边界过渡自然，颜色一致性明显更好。

人像场景修复（CelebA-HQ / FFHQ）：

这是 Moebius 最亮眼的战场。当 mask 覆盖面部关键区域（眼睛、鼻子、嘴巴）时，多数方法要么生成模糊的五官，要么出现严重的语义错误——眼睛位置偏移、肤色不匹配、甚至出现不合理的面部结构。

Moebius 生成的面部细节清晰，五官位置合理，肤色与周围区域自然衔接。在某些案例中，它甚至比 FLUX.1-Fill-Dev 的人脸修复更自然。

Simon Willison 已经把它搬进了浏览器

Moebius 开源不到一周，Simon Willison（Django 联合创始人）就用 Claude Code 把它移植到了浏览器里运行——基于 ONNX Runtime Web + WebGPU，零后端，打开网页就能用。

你上传图片，涂抹要移除的区域，点击「Run inpaint」，等几秒钟，修图完成。

这意味着 0.22B 的参数量不只是「学术上的轻量」，而是真的能跑在消费级设备上的轻量。

为什么这件事比模型本身更重要？

Moebius 的核心论点不是「我们做了一个小模型」。

它的论点是：堆参数不是唯一的路。

过去两年，AI 行业对 Scaling Law 的信仰几乎到了宗教程度。更大的模型、更多的数据、更贵的算力——这条路径确实带来了 GPT-4、FLUX 这样的里程碑，但也制造了一个副作用：创新门槛被无限拉高。

当只有拥有万卡集群的大公司才能参与竞争时，这个领域不叫开源，叫寡头游戏。

Moebius 证明了另一条路的可行性：

架构创新可以替代暴力扩展
知识蒸馏可以让小模型继承大模型的能力
任务特化可以省去通用模型的参数冗余

这不是说大模型没用——通用能力仍然需要规模支撑。但在特定任务上，一个精心设计的小模型，完全可以打败一个臃肿的通用模型。

项目地址： github.com/hustvl/Moebius 在线体验： huggingface.co/spaces/multimodalart/Moebius 浏览器版： simonw.github.io/moebius-web

推广：想白嫖更多 AI 工具？Agnes AI 提供 1M 上下文 + 4K 生图 + 视频全免费，API 地址 apihub.agnes-ai.com/v1，注册地址 https://platform.agnes-ai.com/

0.22B 干翻 11.9B：华科和 VIVO 造了个修图模型，参数连 FLUX 的零头都不到

两个数字，一个反常识

怎么做到的？

第一拳：LλMI 注意力模块

第二拳：知识蒸馏

实际效果怎么样？

Simon Willison 已经把它搬进了浏览器

为什么这件事比模型本身更重要？

评论