QUICK REVIEW

[论文解读] Learning Image Representations by Completing Damaged Jigsaw Puzzles

Dahun Kim, Donghyeon Cho|arXiv (Cornell University)|Feb 6, 2018

Image Processing and 3D Reconstruction参考文献 33被引用 26

一句话总结

该论文提出了一种自监督表示学习方法，通过训练卷积神经网络（CNN）来解决‘受损拼图’问题——即在缺失一块且其余所有碎片去色的情况下，重建一个3×3图像块的排列。通过联合学习恢复空间布局、重建缺失的图像块以及恢复颜色，该模型学习到鲁棒且通用的特征，在PASCAL VOC分类与语义分割任务上实现了最先进的迁移性能，优于单一自监督任务及其简单组合。

ABSTRACT

In this paper, we explore methods of complicating self-supervised tasks for representation learning. That is, we do severe damage to data and encourage a network to recover them. First, we complicate each of three powerful self-supervised task candidates: jigsaw puzzle, inpainting, and colorization. In addition, we introduce a novel complicated self-supervised task called "Completing damaged jigsaw puzzles" which is puzzles with one piece missing and the other pieces without color. We train a convolutional neural network not only to solve the puzzles, but also generate the missing content and colorize the puzzles. The recovery of the aforementioned damage pushes the network to obtain robust and general-purpose representations. We demonstrate that complicating the self-supervised tasks improves their original versions and that our final task learns more robust and transferable representations compared to the previous methods, as well as the simple combination of our candidate tasks. Our approach achieves state-of-the-art performance in transfer learning on PASCAL classification and semantic segmentation.

研究动机与目标

通过数据损坏增加任务难度，以提升自监督表示学习的质量。
探究将多个受损自监督任务结合是否能增强特征的鲁棒性与可迁移性。
开发一种统一任务——‘完成受损拼图’——以整合拼图重组、缺失块生成与去色恢复。
在下游任务（如分类、检测与语义分割）上评估所得表征的性能。
仅使用自监督预训练，在PASCAL VOC基准上实现最先进的性能。

提出的方法

从图像中采样3×3的图像块，通过打乱块的顺序、移除其中一块，并将剩余块去色，构建受损拼图。
使用CNN联合预测原始的空间排列、重建缺失的图像块，并恢复碎片的颜色。
通过结合拼图分类、图像修复重建与去色损失的多任务损失函数，端到端训练网络。
通过在PASCAL VOC 2012上的迁移学习评估最终模型的性能，涵盖分类、检测与语义分割任务。
使用最后一层的特征（如fc6、conv5或conv7）进行最近邻检索与线性评估。
与单任务基线（拼图、图像修复、去色）及ImageNet监督预训练方法进行比较。

实验结果

研究问题

RQ1通过数据损坏提升自监督任务的难度，是否能改善表征质量？
RQ2将拼图重组、图像修复与去色恢复整合为单一复杂任务，是否能带来优于单个任务的泛化能力？
RQ3所提出的‘受损拼图’方法在下游视觉任务上的性能，与标准自监督及ImageNet监督预训练相比如何？
RQ4所学习的特征在保留语义内容的同时，对视角、颜色与遮挡变化的鲁棒性如何？
RQ5多个受损任务的联合优化，是否能产生比单个任务简单集成更鲁棒、更具可迁移性的表征？

主要发现

所提出的‘受损拼图’方法在PASCAL VOC 2012分类与语义分割任务上，经自监督预训练微调后，实现了最先进的性能。
该方法优于单个自监督任务（拼图、图像修复、去色）及其简单组合，证明了在高任务复杂度下联合优化的优势。
最近邻检索结果表明，模型学习到了语义上有意义的特征，无论物体姿态、颜色或模糊程度如何，均能检索到语义相似的对象，其行为与ImageNet预训练模型高度一致。
该模型对多样化视觉概念具有良好的泛化能力，能检索到共现对象（如人与马、照护者与婴儿），表明其具备强大的上下文理解能力。
所学特征对类内颜色变化与视角变换具有强鲁棒性，在这些方面优于去色与拼图基线方法。
在ImageNet上的线性评估表现优异，证实了所学表征的质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。