Skip to main content
QUICK REVIEW

[论文解读] Colorful Image Colorization

Richard Zhang, Phillip Isola|arXiv (Cornell University)|Mar 28, 2016
Generative Adversarial Networks and Image Synthesis参考文献 41被引用 28
一句话总结

本文提出了一种基于深度学习的端到端方法,用于全自动、鲜艳且逼真的图像着色,采用在超过一百万张彩色图像上训练的卷积神经网络(CNN)。通过将颜色预测建模为一个分类任务,并引入类别重平衡以突出罕见颜色,同时采用退火均值解码策略,该方法生成了在人类感知上极为逼真的结果,在32%的图像着色图灵测试中骗过了人类观察者,显著优于先前的工作,同时在自监督表示学习的预训练任务中表现出色。

ABSTRACT

Given a grayscale photograph as input, this paper attacks the problem of hallucinating a plausible color version of the photograph. This problem is clearly underconstrained, so previous approaches have either relied on significant user interaction or resulted in desaturated colorizations. We propose a fully automatic approach that produces vibrant and realistic colorizations. We embrace the underlying uncertainty of the problem by posing it as a classification task and use class-rebalancing at training time to increase the diversity of colors in the result. The system is implemented as a feed-forward pass in a CNN at test time and is trained on over a million color images. We evaluate our algorithm using a "colorization Turing test," asking human participants to choose between a generated and ground truth color image. Our method successfully fools humans on 32% of the trials, significantly higher than previous methods. Moreover, we show that colorization can be a powerful pretext task for self-supervised feature learning, acting as a cross-channel encoder. This approach results in state-of-the-art performance on several feature learning benchmarks.

研究动机与目标

  • 开发一种全自动、端到端的深度学习系统,用于灰度图像着色,无需用户交互即可生成鲜艳且逼真的结果。
  • 通过建模像素级颜色分布而非单一确定性预测,有效应对着色任务中固有的多模态不确定性。
  • 通过重新加权损失函数以在训练过程中强调罕见且高变异性颜色,提升输出的泛化能力与多样性。
  • 通过新颖的人本“图像着色图灵测试”评估着色性能,衡量结果的感知逼真度。
  • 探索图像着色作为强大自监督表示学习先验任务的潜力,提升下游视觉任务的性能。

提出的方法

  • 模型在给定灰度图像的 $L$ 通道(明度)条件下,预测 CIE Lab 色彩空间中的 $a$ 和 $b$ 通道,将着色任务建模为像素级分类任务。
  • 训练阶段应用带类别重平衡的交叉熵损失,以减少对常见颜色的偏见,提升预测多样性。
  • 最终着色结果通过取预测颜色分布的退火均值得到,实现置信度与多样性的平衡。
  • 网络以前馈方式在CNN中实现,支持测试阶段的快速推理。
  • 使用现成模型(如VGG和Fast R-CNN)在下游任务(如图像分类、目标检测和语义分割)上对模型进行微调与评估。
  • 该方法亦应用于真实历史黑白照片,证明其对领域偏移具有鲁棒性。

实验结果

研究问题

  • RQ1在大规模彩色图像数据集上训练的深度CNN能否在无需用户输入的情况下生成鲜艳逼真的着色结果?
  • RQ2在深度学习框架中,如何有效建模着色任务固有的多模态特性——即单个灰度像素可能对应多种合理颜色?
  • RQ3着色任务能否作为强大的自监督表示学习先验任务,从而在下游视觉基准上取得具有竞争力的性能?
  • RQ4在人类评估场景中,着色模型在多大程度上能生成与真实彩色图像难以区分的结果?
  • RQ5该模型在与训练数据分布不同的真实世界历史黑白照片上,泛化能力如何?

主要发现

  • 所提方法在图像着色图灵测试中达到32%的成功率,显著优于先前工作,表明生成的着色结果在人类观察者眼中常与真实图像无法区分。
  • 由于类别重平衡与分布预测机制,该模型生成的着色结果比以往基于回归的方法更具鲜艳度与多样性。
  • 在PASCAL VOC 2007分类基准上,该模型在自监督方法中达到最先进准确率,优于多项先前方法。
  • 在PASCAL VOC 2012语义分割任务中,使用彩色输入时达到35.6% mIoU,使用灰度输入时达到35.0% mIoU,优于其他自监督方法。
  • 该模型的表示学习能力强大:尽管输入为灰度图像,其在conv2层的性能仍与使用ImageNet监督预训练的模型相当或更优。
  • 该模型在真实历史黑白照片上泛化良好,即使在训练数据分布不同的情况下,仍能生成合理且上下文一致的着色结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。