[论文解读] Real-Time User-Guided Image Colorization with Learned Deep Priors
本文提出一种基于深度学习的实时用户引导图像着色方法,采用卷积神经网络(CNN)将灰度图像与稀疏用户提示映射为完整彩色输出。该模型在一百万条合成用户输入上进行训练,利用学习到的深层先验知识实现高现实感、多样化的着色效果,仅需极少用户输入即可在一分钟内完成高质量结果,同时支持全局直方图转移以实现艺术化控制。
We propose a deep learning approach for user-guided image colorization. The system directly maps a grayscale image, along with sparse, local user "hints" to an output colorization with a Convolutional Neural Network (CNN). Rather than using hand-defined rules, the network propagates user edits by fusing low-level cues along with high-level semantic information, learned from large-scale data. We train on a million images, with simulated user inputs. To guide the user towards efficient input selection, the system recommends likely colors based on the input image and current user inputs. The colorization is performed in a single feed-forward pass, enabling real-time use. Even with randomly simulated user inputs, we show that the proposed system helps novice users quickly create realistic colorizations, and offers large improvements in colorization quality with just a minute of use. In addition, we demonstrate that the framework can incorporate other user "hints" to the desired colorization, showing an application to color histogram transfer. Our code and models are available at https://richzhang.github.io/ideepcolor.
研究动机与目标
- 开发一种实时、基于深度学习的交互式图像着色系统,以减少对大量用户输入的依赖。
- 从大规模数据中学习用户编辑传播,而非依赖手工设计的先验或优化框架。
- 通过基于图像上下文和当前提示的分析,向用户建议可能的颜色,引导其输入更有效的提示。
- 通过引入额外提示(如全局颜色直方图)实现灵活的着色,以实现艺术化控制。
- 证明仅需极少用户交互(一分钟以内)即可生成高质量、逼真的着色结果。
提出的方法
- 训练一个深度卷积神经网络,直接从灰度输入和稀疏用户提供的颜色提示预测完整彩色图像。
- 通过在真实彩色图像上随机采样用户提示来合成训练数据,同时保留真实颜色分布。
- 网络通过融合低层次图像线索与大规模数据中的高层次语义信息,学习用户编辑的传播。
- 在界面中集成数据驱动的颜色调色板,以在每个用户输入位置推荐合理颜色。
- 通过将网络条件化于参考图像的颜色统计信息,支持全局直方图转移,实现艺术化着色。
- 模型通过单次前向传播完成推理,在标准硬件上实现实时性能。

实验结果
研究问题
- RQ1深度神经网络能否在无需手工设计先验的情况下,有效传播稀疏用户颜色提示?
- RQ2从大规模数据中学习到的深层先验是否能相比传统基于优化的方法,提升着色质量与真实感?
- RQ3该系统在极少用户输入下效果如何?能否有效引导用户选择最优提示?
- RQ4该框架能否扩展以整合全局颜色统计信息,实现艺术化或风格化着色?
- RQ5系统如何处理颜色区域模糊或复杂分割边界的区域?
主要发现
- 结合全局直方图转移后,模型的PSNR达到28.57 dB,显著优于基线方法。
- 仅需一分钟用户交互,系统即可使新手用户生成逼真且多样的着色结果。
- 该系统对老旧灰度照片具有良好的泛化能力,无需微调即可生成合理着色。
- 网络成功将参考图像的全局颜色直方图传递到目标灰度图像,生成多样且逼真的结果。
- 系统通过在不同用户提供的颜色之间创建平滑、上下文感知的过渡,有效处理模糊区域。
- 界面的实时性能使用户可在数秒内交互式探索多种可能的着色方案。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。