[论文解读] Colorful Image Colorization
本文提出了一种基于深度学习的端到端方法,用于全自动、鲜艳且逼真的图像着色,采用在超过一百万张彩色图像上训练的卷积神经网络(CNN)。通过将颜色预测建模为一个分类任务,并引入类别重平衡以突出罕见颜色,同时采用退火均值解码策略,该方法生成了在人类感知上极为逼真的结果,在32%的图像着色图灵测试中骗过了人类观察者,显著优于先前的工作,同时在自监督表示学习的预训练任务中表现出色。
Given a grayscale photograph as input, this paper attacks the problem of hallucinating a plausible color version of the photograph. This problem is clearly underconstrained, so previous approaches have either relied on significant user interaction or resulted in desaturated colorizations. We propose a fully automatic approach that produces vibrant and realistic colorizations. We embrace the underlying uncertainty of the problem by posing it as a classification task and use class-rebalancing at training time to increase the diversity of colors in the result. The system is implemented as a feed-forward pass in a CNN at test time and is trained on over a million color images. We evaluate our algorithm using a "colorization Turing test," asking human participants to choose between a generated and ground truth color image. Our method successfully fools humans on 32% of the trials, significantly higher than previous methods. Moreover, we show that colorization can be a powerful pretext task for self-supervised feature learning, acting as a cross-channel encoder. This approach results in state-of-the-art performance on several feature learning benchmarks.
研究动机与目标
- 开发一种全自动、端到端的深度学习系统,用于灰度图像着色,无需用户交互即可生成鲜艳且逼真的结果。
- 通过建模像素级颜色分布而非单一确定性预测,有效应对着色任务中固有的多模态不确定性。
- 通过重新加权损失函数以在训练过程中强调罕见且高变异性颜色,提升输出的泛化能力与多样性。
- 通过新颖的人本“图像着色图灵测试”评估着色性能,衡量结果的感知逼真度。
- 探索图像着色作为强大自监督表示学习先验任务的潜力,提升下游视觉任务的性能。
提出的方法
- 模型在给定灰度图像的 $L$ 通道(明度)条件下,预测 CIE Lab 色彩空间中的 $a$ 和 $b$ 通道,将着色任务建模为像素级分类任务。
- 训练阶段应用带类别重平衡的交叉熵损失,以减少对常见颜色的偏见,提升预测多样性。
- 最终着色结果通过取预测颜色分布的退火均值得到,实现置信度与多样性的平衡。
- 网络以前馈方式在CNN中实现,支持测试阶段的快速推理。
- 使用现成模型(如VGG和Fast R-CNN)在下游任务(如图像分类、目标检测和语义分割)上对模型进行微调与评估。
- 该方法亦应用于真实历史黑白照片,证明其对领域偏移具有鲁棒性。
实验结果
研究问题
- RQ1在大规模彩色图像数据集上训练的深度CNN能否在无需用户输入的情况下生成鲜艳逼真的着色结果?
- RQ2在深度学习框架中,如何有效建模着色任务固有的多模态特性——即单个灰度像素可能对应多种合理颜色?
- RQ3着色任务能否作为强大的自监督表示学习先验任务,从而在下游视觉基准上取得具有竞争力的性能?
- RQ4在人类评估场景中,着色模型在多大程度上能生成与真实彩色图像难以区分的结果?
- RQ5该模型在与训练数据分布不同的真实世界历史黑白照片上,泛化能力如何?
主要发现
- 所提方法在图像着色图灵测试中达到32%的成功率,显著优于先前工作,表明生成的着色结果在人类观察者眼中常与真实图像无法区分。
- 由于类别重平衡与分布预测机制,该模型生成的着色结果比以往基于回归的方法更具鲜艳度与多样性。
- 在PASCAL VOC 2007分类基准上,该模型在自监督方法中达到最先进准确率,优于多项先前方法。
- 在PASCAL VOC 2012语义分割任务中,使用彩色输入时达到35.6% mIoU,使用灰度输入时达到35.0% mIoU,优于其他自监督方法。
- 该模型的表示学习能力强大:尽管输入为灰度图像,其在conv2层的性能仍与使用ImageNet监督预训练的模型相当或更优。
- 该模型在真实历史黑白照片上泛化良好,即使在训练数据分布不同的情况下,仍能生成合理且上下文一致的着色结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。