Skip to main content
QUICK REVIEW

[論文レビュー] Learning Image Representations by Completing Damaged Jigsaw Puzzles

Dahun Kim, Donghyeon Cho|arXiv (Cornell University)|Feb 6, 2018
Image Processing and 3D Reconstruction参考文献 33被引用数 26
ひとこと要約

本論文は、1つのピースが欠け、残りのピースがモノクロ化された3×3の画像ピースの配置を再構成する『損傷を加えたジグソーパズル』を解くことで、自己教師あり表現学習を行うCNNを提案する。空間的配置の再構成、欠損ピースの再構築、色の回復を同時に学習することで、汎用的で頑健な特徴を学習し、PASCAL VOC分類およびセマンティックセグメンテーションにおいて、個々の自己教師ありタスクやそれらの単純な組み合わせを上回る最先端の転移性能を達成する。

ABSTRACT

In this paper, we explore methods of complicating self-supervised tasks for representation learning. That is, we do severe damage to data and encourage a network to recover them. First, we complicate each of three powerful self-supervised task candidates: jigsaw puzzle, inpainting, and colorization. In addition, we introduce a novel complicated self-supervised task called "Completing damaged jigsaw puzzles" which is puzzles with one piece missing and the other pieces without color. We train a convolutional neural network not only to solve the puzzles, but also generate the missing content and colorize the puzzles. The recovery of the aforementioned damage pushes the network to obtain robust and general-purpose representations. We demonstrate that complicating the self-supervised tasks improves their original versions and that our final task learns more robust and transferable representations compared to the previous methods, as well as the simple combination of our candidate tasks. Our approach achieves state-of-the-art performance in transfer learning on PASCAL classification and semantic segmentation.

研究の動機と目的

  • データへの損傷を加えることで自己教師ありタスクの難易度を高め、表現学習を改善すること。
  • 複数の損傷を加えた自己教師ありタスクを統合することで、特徴の頑健性と転移性が向上するかを調査すること。
  • ジグソーパズルの再構成、欠損ピースの生成、色の復元を統合した一貫したタスクである『損傷を加えたジグソーパズルの完成』を考案すること。
  • 得られた表現を、分類、検出、セマンティックセグメンテーションなどの下流タスクで評価すること。
  • 自己教師あり事前学習のみを用いて、PASCAL VOCベンチマークで最先端の性能を示すこと。

提案手法

  • 画像から3×3のピースを抽出し、ピースをシャッフルし、1つのピースを削除し、残りのピースをモノクロ化することで損傷を加えたジグソーパズルを作成する。
  • CNNを用いて、元の空間的配置の予測、欠損ピースの再構築、ピースの色の回復を同時に予測するように訓練する。
  • ジグソーパズル分類、穴埋め再構成、色の復元の損失を組み合わせたマルチタスク損失を用いて、エンドツーエンドでネットワークを訓練する。
  • 最終的なモデルは、PASCAL VOC 2012における分類、検出、セマンティックセグメンテーションの転移学習評価を実施する。
  • 最近傍探索や線形評価に、最終層(例:fc6、conv5、またはconv7)の特徴を用いる。
  • 単一タスクベースライン(ジグソーパズル、穴埋め、色の復元)およびImageNet教師あり事前学習と比較する。

実験結果

リサーチクエスチョン

  • RQ1データへの損傷を加えることで自己教師ありタスクの難易度を高めることで、表現の質が向上するか?
  • RQ2ジグソーパズルの再構成、穴埋め、色の復元を1つの複雑なタスクに統合することで、個々のタスクよりも良い一般化性能が得られるか?
  • RQ3提案手法の『損傷を加えたジグソーパズル』タスクは、標準的な自己教師あり学習およびImageNet教師あり事前学習と比較して、下流の視覚タスクでどの程度の性能を示すか?
  • RQ4学習された特徴が、視点、色、遮蔽の変化に対して頑健である一方で、意味的コンテンツをどの程度捉えているか?
  • RQ5複数の損傷を加えたタスクを同時に最適化することで、単一タスクのアンサンブルよりも、より不変で転移性の高い表現が得られるか?

主な発見

  • 提案された『損傷を加えたジグソーパズル』手法は、自己教師あり事前学習から微調整した場合、PASCAL VOC 2012分類およびセマンティックセグメンテーションで最先端の性能を達成した。
  • 個々の自己教師ありタスク(ジグソーパズル、穴埋め、色の復元)およびそれらの単純な組み合わせを上回り、高いタスク複雑性下での共同最適化の利点を示した。
  • 最近傍探索の結果、モデルは意味的に意味のある特徴を学習しており、ポーズ、色、ぼやけ具合に関係なく、類似した意味のオブジェクトを正しく検索でき、ImageNet事前学習モデルの挙動をよく模倣した。
  • モデルは多様な視覚的コンセプトにうまく一般化できており、共起するオブジェクト(例:人間と馬、介護者と乳児)を正しく検索でき、強力な文脈理解を示した。
  • クラス内での色の変動や視点の変化に対しても特徴が頑健であり、色の復元やジグソーパズルベースラインを上回った。
  • ImageNetでの線形評価でも優れた性能を示し、学習された表現の質の高さを裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。