QUICK REVIEW

[论文解读] Colorful Image Colorization

Richard Zhang, Phillip Isola|arXiv (Cornell University)|Mar 28, 2016

Generative Adversarial Networks and Image Synthesis参考文献 41被引用 28

一句话总结

本文提出了一种基于深度学习的端到端方法，用于全自动、鲜艳且逼真的图像着色，采用在超过一百万张彩色图像上训练的卷积神经网络（CNN）。通过将颜色预测建模为一个分类任务，并引入类别重平衡以突出罕见颜色，同时采用退火均值解码策略，该方法生成了在人类感知上极为逼真的结果，在32%的图像着色图灵测试中骗过了人类观察者，显著优于先前的工作，同时在自监督表示学习的预训练任务中表现出色。

ABSTRACT

Given a grayscale photograph as input, this paper attacks the problem of hallucinating a plausible color version of the photograph. This problem is clearly underconstrained, so previous approaches have either relied on significant user interaction or resulted in desaturated colorizations. We propose a fully automatic approach that produces vibrant and realistic colorizations. We embrace the underlying uncertainty of the problem by posing it as a classification task and use class-rebalancing at training time to increase the diversity of colors in the result. The system is implemented as a feed-forward pass in a CNN at test time and is trained on over a million color images. We evaluate our algorithm using a "colorization Turing test," asking human participants to choose between a generated and ground truth color image. Our method successfully fools humans on 32% of the trials, significantly higher than previous methods. Moreover, we show that colorization can be a powerful pretext task for self-supervised feature learning, acting as a cross-channel encoder. This approach results in state-of-the-art performance on several feature learning benchmarks.

研究动机与目标

开发一种全自动、端到端的深度学习系统，用于灰度图像着色，无需用户交互即可生成鲜艳且逼真的结果。
通过建模像素级颜色分布而非单一确定性预测，有效应对着色任务中固有的多模态不确定性。
通过重新加权损失函数以在训练过程中强调罕见且高变异性颜色，提升输出的泛化能力与多样性。
通过新颖的人本“图像着色图灵测试”评估着色性能，衡量结果的感知逼真度。
探索图像着色作为强大自监督表示学习先验任务的潜力，提升下游视觉任务的性能。

提出的方法

模型在给定灰度图像的 $L$ 通道（明度）条件下，预测 CIE Lab 色彩空间中的 $a$ 和 $b$ 通道，将着色任务建模为像素级分类任务。
训练阶段应用带类别重平衡的交叉熵损失，以减少对常见颜色的偏见，提升预测多样性。
最终着色结果通过取预测颜色分布的退火均值得到，实现置信度与多样性的平衡。
网络以前馈方式在CNN中实现，支持测试阶段的快速推理。
使用现成模型（如VGG和Fast R-CNN）在下游任务（如图像分类、目标检测和语义分割）上对模型进行微调与评估。
该方法亦应用于真实历史黑白照片，证明其对领域偏移具有鲁棒性。

实验结果

研究问题

RQ1在大规模彩色图像数据集上训练的深度CNN能否在无需用户输入的情况下生成鲜艳逼真的着色结果？
RQ2在深度学习框架中，如何有效建模着色任务固有的多模态特性——即单个灰度像素可能对应多种合理颜色？
RQ3着色任务能否作为强大的自监督表示学习先验任务，从而在下游视觉基准上取得具有竞争力的性能？
RQ4在人类评估场景中，着色模型在多大程度上能生成与真实彩色图像难以区分的结果？
RQ5该模型在与训练数据分布不同的真实世界历史黑白照片上，泛化能力如何？

主要发现

所提方法在图像着色图灵测试中达到32%的成功率，显著优于先前工作，表明生成的着色结果在人类观察者眼中常与真实图像无法区分。
由于类别重平衡与分布预测机制，该模型生成的着色结果比以往基于回归的方法更具鲜艳度与多样性。
在PASCAL VOC 2007分类基准上，该模型在自监督方法中达到最先进准确率，优于多项先前方法。
在PASCAL VOC 2012语义分割任务中，使用彩色输入时达到35.6% mIoU，使用灰度输入时达到35.0% mIoU，优于其他自监督方法。
该模型的表示学习能力强大：尽管输入为灰度图像，其在conv2层的性能仍与使用ImageNet监督预训练的模型相当或更优。
该模型在真实历史黑白照片上泛化良好，即使在训练数据分布不同的情况下，仍能生成合理且上下文一致的着色结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。