QUICK REVIEW

[論文レビュー] Transitive Invariance for Self-supervised Visual Representation Learning

Xiaolong Wang, Kaiming He|arXiv (Cornell University)|Aug 9, 2017

Domain Adaptation and Few-Shot Learning参考文献 51被引用数 22

ひとこと要約

本論文は、動画データから大規模なアフィニティグラフを構築し、インスタンス間およびインスタンス内での変化を介してインスタンスを接続することで、推移的不変性を活用した自己教師あり視覚表現学習手法を提案する。このグラフに推移性を適用することで、個々の変化源を超えたより豊かな不変性を生成し、VGG16をバックボーンとするトリプレット-シアンプスネットワークを訓練する。その結果、PASCAL VOC 2007で63.2% mAP、COCOで23.5% APを達成し、オブジェクト検出タスクで最先端の性能を発揮した。また、表面法線推定においてもImageNet事前学習を上回った。

ABSTRACT

Learning visual representations with self-supervised learning has become popular in computer vision. The idea is to design auxiliary tasks where labels are free to obtain. Most of these tasks end up providing data to learn specific kinds of invariance useful for recognition. In this paper, we propose to exploit different self-supervised approaches to learn representations invariant to (i) inter-instance variations (two objects in the same class should have similar features) and (ii) intra-instance variations (viewpoint, pose, deformations, illumination, etc). Instead of combining two approaches with multi-task learning, we argue to organize and reason the data with multiple variations. Specifically, we propose to generate a graph with millions of objects mined from hundreds of thousands of videos. The objects are connected by two types of edges which correspond to two types of invariance: "different instances but a similar viewpoint and category" and "different viewpoints of the same instance". By applying simple transitivity on the graph with these edges, we can obtain pairs of images exhibiting richer visual invariance. We use this data to train a Triplet-Siamese network with VGG16 as the base architecture and apply the learned representations to different recognition tasks. For object detection, we achieve 63.2% mAP on PASCAL VOC 2007 using Fast R-CNN (compare to 67.3% with ImageNet pre-training). For the challenging COCO dataset, our method is surprisingly close (23.5%) to the ImageNet-supervised counterpart (24.4%) using the Faster R-CNN framework. We also show that our network can perform significantly better than the ImageNet network in the surface normal estimation task.

研究の動機と目的

人為的アノテーションを一切用いずに、より豊かな視覚的不変性を活用することで、自己教師あり学習と教師あり学習のギャップを埋めること。
マルチタスク学習ではなく、データ推論を用いてインスタンス間およびインスタンス内変化を統合することで、自己教師ありモデルの一般化性能を向上させること。
自己教師あり表現が、オブジェクト検出や表面法線推定といった下流タスクでImageNet事前学習を凌駕または同等に達成できることを示すこと。
挑戦的なCOCOオブジェクト検出データセットにおける自己教師あり事前学習の新しいベンチマークを確立すること。

提案手法

数10万本の動画から大規模なアフィニティグラフを構築し、オブジェクト追跡とインスタンスレベルの共通性学習を用いて、2種類のエッジ（インスタンス間：同じカテゴリで類似した視点、インスタンス内：同じオブジェクトの異なる視点）を定義する。
このグラフに推移的推論を適用し、個々の変化源を超えた複合的・複雑な不変性を示す新たな画像ペアを生成する。
推移的ペアを用いて、VGG16をバックボーンとするトリプレット-シアンプスネットワークを訓練し、複数の変化に対して不変な視覚表現を学習する。
オブジェクト検出（Fast R-CNN、Faster R-CNN）や表面法線推定（FCN-32s）といった下流タスクで、学習済み表現をファインチューニングする。
人為的監視なしに、非教師付き追跡（例：[61]）およびインスタンス共通性学習（例：[9]）を用いて、グラフ内のエッジをマイニングする。
PASCAL VOC 2007、COCO、NYUv2で性能を評価し、ImageNet事前学習および先行する自己教師あり手法と比較する。

実験結果

リサーチクエスチョン

RQ1自己教師ありデータに対する推移的推論が、個々の不変性タイプを超えた視覚表現学習を向上させられるか？
RQ2推移的不変性を用いて学習した自己教師あり表現が、オブジェクト検出ベンチマークでImageNet事前学習を同等または上回れるか？
RQ3提案手法は、表面法線推定のような低レベルビジョンタスクにおいて、先行する自己教師ありアプローチよりも一般化性能に優れるか？
RQ4なぜ、個別の不変性目的のマルチタスク学習は性能向上に寄与しないのか？また、推移性によるデータレベルの組み合わせは、この限界を克服できるか？

主な発見

Fast R-CNNを用いたVGG16ベースの実装で、PASCAL VOC 2007で63.2% mAPを達成し、ImageNet事前学習の67.3% mAPに近づいた。
COCOオブジェクト検出における最初の自己教師あり事前学習結果を報告し、23.5% APを達成。ImageNet事前学習の24.4% APと1%以内の差で、ほぼ同等の性能を示した。
NYUv2表面法線推定タスクでは、自己教師ありモデルがImageNet事前学習を上回り、平均誤差26.0°、誤差<30°のピクセル割合67.5%を達成。ImageNetは27.8°と63.4%であった。
表面法線推定において、先行する自己教師あり手法[9]および[61]を著しく上回り、11.25°誤差閾値で4.3%の性能向上を達成した。
完全結合層のみをファインチューニングした場合、自己教師ありモデルはVOC2007で43.1% mAPを達成し、競合他手法を著しく上回った。
アブレーション実験により、インスタンス間およびインスタンス内不変性のマルチタスク学習は性能向上に寄与せず、損失レベルの組み合わせではなく、データレベルの推移性が優れていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。