QUICK REVIEW

[论文解读] Learning Representations for Automatic Colorization

Gustav Larsson, Michael Maire|arXiv (Cornell University)|Mar 22, 2016

Generative Adversarial Networks and Image Synthesis参考文献 38被引用 96

一句话总结

本文提出了一种深度学习框架，用于完全自动化的图像着色，该框架利用预训练VGG网络的多层级语义特征，预测每个像素的颜色直方图而非单一颜色。通过建模颜色分布并采用端到端训练，该方法在完全自动和部分自动着色任务上均达到最先进性能，同时展现出在无需ImageNet预训练情况下的强大自监督表征学习潜力。

ABSTRACT

We develop a fully automatic image colorization system. Our approach leverages recent advances in deep networks, exploiting both low-level and semantic representations. As many scene elements naturally appear according to multimodal color distributions, we train our model to predict per-pixel color histograms. This intermediate output can be used to automatically generate a color image, or further manipulated prior to image formation. On both fully and partially automatic colorization tasks, we outperform existing methods. We also explore colorization as a vehicle for self-supervised visual representation learning.

研究动机与目标

开发一种完全自动化的图像着色系统，无需用户输入或参考图像搜索。
通过建模颜色分布而非单一颜色，提升在复杂场景中的着色性能。
探索图像着色是否可作为视觉表征学习的自监督预训练目标。
在ImageNet上建立新的自动着色基准，以实现评估的标准化。

提出的方法

系统使用深度卷积神经网络（VGG）从灰度图像中提取多层级、空间定位的特征（超列）。
预测每个像素的颜色直方图（色调和饱和度），而非单一颜色，以捕捉不确定性与多模态颜色分布。
模型通过可微损失函数端到端训练，以最小化预测直方图与真实直方图之间的差异。
推理阶段的颜色分配通过从预测直方图中采样实现，支持创意控制与不确定性感知的结果。
该框架支持完全自动着色以及结合全局颜色直方图先验的部分自动设置。
该方法在基于ImageNet的新着色基准上进行评估，并在Pascal VOC 2012上测试其自监督预训练性能。

实验结果

研究问题

RQ1基于深度神经网络预测每个像素颜色直方图的模型，是否在自动图像着色任务中优于单一颜色预测？
RQ2来自预训练CNN的语义特征是否能显著提升在复杂多样的场景中的着色质量？
RQ3从零开始训练的网络在图像着色任务上，是否能产生对下游任务（如语义分割）具有竞争力的视觉表征？
RQ4图像着色是否可作为有效的自监督预训练目标，从而减少对ImageNet分类预训练的依赖？

主要发现

所提方法在多个数据集上，于完全自动与部分自动着色任务中均达到最先进性能，优于依赖参考图像或人工输入的先前方法。
在新的基于ImageNet的着色基准上，该模型在RMSE、PSNR和视觉质量方面均取得更优结果，即使不进行参考图像搜索亦然。
系统在复杂场景中生成视觉上令人愉悦的结果，包括存在模糊或多模态颜色分布的场景，有效避免了常见的伪影（如颜色渗出）和不自然的颜色偏移。
从零开始训练时，该着色网络在Pascal VOC 2012语义分割基准上达到50.2%的平均交并比（mIoU），显著优于随机初始化，且接近监督预训练性能。
该方法表明，着色可作为强大的自监督预训练目标，将随机初始化与监督预训练之间的性能差距缩小超过50%。
采用颜色直方图预测可实现不确定性感知的采样与后处理，从而在着色中实现创意控制与鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。