模糊照片救星:9 种退化一口吞,开源第一,直逼闭源天花板
你拍了一张夜景。手抖了。糊了。
你想:算了,修也修不好。去模糊工具只能去模糊,去噪的管不了雨滴,去雨的对低光没辙。九种病找九个科,挂完号照片也凉了。
然后你打开 RealRestorer,敲一句 "Please deblur the image and make it sharper"。28 步推理,3 秒出图。清晰、干净、结构没变。
去模糊、去噪、去雨、去眩光、去雾、去压缩伪影、去摩尔纹、去反光、低光增强——一个模型全吃。不是九个模型拼起来,是一个模型九种退化通吃。
之前的图像修复,像什么
像一个只会治感冒的医生。你发烧了,他开退烧药。你同时咳嗽、流鼻涕、肌肉酸痛?他懵了。
传统图像修复模型就是这种「专科医生」。去模糊训练一个,去噪训练一个,去雨再训练一个。模型之间互不相干,遇到混合退化——比如一张又糊又暗又有噪点的夜景——要么逐个喂,要么直接摆烂。
逐个喂的问题在于:第一个模型处理完的输出,已经偏离了原始分布。第二个模型拿到的不是「真实退化图像」,而是「第一个模型的修复残留」。误差层层累积,修到第三轮,细节早丢了。
RealRestorer 的思路完全不同。它不治「某种退化」,它治「退化」本身。
怎么做到的
基于大规模图像编辑模型构建。不是从零训练一个小网络去学去模糊,而是在一个已经见过海量图像、理解场景语义的大模型基础上做修复。
这意味着什么?意味着它知道「这张照片应该长什么样」。
一个只会去模糊的小模型不知道照片里的树叶该有多少纹理、皮肤该是什么质感——它只知道把边缘锐化。但一个理解场景语义的大模型,在去模糊的同时能补回合理的细节,因为它「见过」清晰的树叶和皮肤长什么样。
训练上用了两阶段方案。第一阶段学退化去除能力,第二阶段用真实退化数据微调稳定性。关键是 Progressively-Mixed 策略——第二阶段不全是真实数据,还保留少量合成退化数据混着训。防过拟合。纯真实数据容易飘,纯合成数据不够真,混着来刚好。
提示词驱动是另一个亮点。不是固定流程,而是用自然语言控制修复行为:
| 场景 | 你说 |
|---|---|
| 模糊 | "Please deblur the image and make it sharper" |
| 下雨 | "Please remove the rain from the image" |
| 摩尔纹 | "Please remove the moiré patterns" |
| 低光 | 暗处细节自然恢复 |
同一张图,不同 prompt,不同修复方向。以前这是九个模型的事,现在一句话搞定。
跑分:开源第一,全球第三
RealIR-Bench 是 RealRestorer 团队一起发布的基准,覆盖 9 类真实退化。在这个基准上:
- 开源方法中排名第一
- 综合排名全球第三,仅次于 Nano Banana Pro 和 GPT-Image-1.5
- 去模糊和低光增强两项——公认最难的——表现最佳
「开源第一」不稀奇。稀奇的是跟闭源顶尖模型的差距,几乎可以忽略。
过去开源模型和闭源模型之间隔着一道鸿沟。你用开源,便宜但效果差一截;你用闭源,效果好但不可控、要付费、数据还得传上去。RealRestorer 第一次把这个差距压到了「你真的在意那 1% 吗」的程度。
实操:能跑就行
GitHub 上代码、模型、基准全套开源。推理很简单:
python3 infer_realrestorer.py \
--model_path /path/to/realrestorer_bundle \
--image /path/to/input.png \
--prompt "Restore the details and keep the original composition." \
--output /path/to/output.png \
--device cuda \
--torch_dtype bfloat16 \
--num_inference_steps 28 \
--guidance_scale 3.0
28 步推理,guidance_scale 3.0,bfloat16 精度。速度不慢,显存友好。
已支持 Apple Silicon MPS 推理——Mac 用户也能跑。Diffusers 推理和 ComfyUI 节点都有社区支持。
配套的 degradation_pipeline 和 RealIR-Bench 也开源了。想自己做对比实验、训自己的修复模型,评估路径端到端可见。
阶跃星辰又出招了
作者团队来自南方科技大学、阶跃星辰(StepFun)、中科院深圳先进技术研究院。
阶跃星辰这个名字最近出现频率不低。之前百度 Unlimited OCR 的核心作者魏浩然,也是阶跃星辰出身。这家公司在视觉理解方向上的积累,比外界感知的要深。
RealRestorer 的第一作者 Yufeng Yang,GitHub 仓库 291 Stars、25 Commits、8 个 Open Issues——社区在用,也有反馈在修。不是那种发了论文就跑的项目。
一个模型还是九个模型,这是路线之争
表面上看,RealRestorer 是一个图像修复工具。但往深了想,它代表一种路线选择:通用 vs 专用。
专用模型在单一任务上可以做到极致,但遇到真实世界的混合退化就捉襟见肘。通用模型牺牲一点单任务上限,换来的是对真实场景的覆盖能力。
图像修复的真实需求从来不是「去模糊」或「去噪」这种干净的分类。你手机拍出来的废片,模糊、噪点、低光、压缩伪影往往同时存在。用户要的是一个按钮,不是九个。
RealRestorer 证明了:基于大规模图像编辑模型的通用路线,在开源世界已经能逼近闭源天花板。下一步要看的,是它能不能把那最后 1% 的差距也吃掉——还是闭源模型会继续拉开身位。
你又拍了一张夜景。还是手抖了。
但这次你没那么慌了。
GitHub:https://github.com/yfyang007/RealRestorer
HuggingFace:https://huggingface.co/RealRestorer/RealRestorer
暂无评论。