QUICK REVIEW

[論文レビュー] Self-Supervised Relational Reasoning for Representation Learning

Massimiliano Patacchiola, Amos Storkey|arXiv (Cornell University)|Jun 10, 2020

Domain Adaptation and Few-Shot Learning参考文献 62被引用数 29

ひとこと要約

本論文は、二値分類ヘッドを用いて、同一オブジェクト間の関係（イントラクラス）と異なるシーン間のオブジェクト間の関係（インタクラス）を区別することで、ニューラルネットワークが豊かな視覚的表現を学習する自己教師あり関係的推論フレームワークを提案する。この手法は、標準ベンチマークで先行手法よりも平均14%の精度向上を達成し、ベルヌーイ尤度最大化による対照的学習より効率的である。

ABSTRACT

In self-supervised learning, a system is tasked with achieving a surrogate objective by defining alternative targets on a set of unlabeled data. The aim is to build useful representations that can be used in downstream tasks, without costly manual annotation. In this work, we propose a novel self-supervised formulation of relational reasoning that allows a learner to bootstrap a signal from information implicit in unlabeled data. Training a relation head to discriminate how entities relate to themselves (intra-reasoning) and other entities (inter-reasoning), results in rich and descriptive representations in the underlying neural network backbone, which can be used in downstream tasks such as classification and image retrieval. We evaluate the proposed method following a rigorous experimental procedure, using standard datasets, protocols, and backbones. Self-supervised relational reasoning outperforms the best competitor in all conditions by an average 14% in accuracy, and the most recent state-of-the-art model by 3%. We link the effectiveness of the method to the maximization of a Bernoulli log-likelihood, which can be considered as a proxy for maximizing the mutual information, resulting in a more efficient objective with respect to the commonly used contrastive losses.

研究の動機と目的

ラベルなしデータ内の暗黙的な関係的構造を活用して、強力な視覚的表現を学習する自己教師あり学習手法を開発すること。
ベルヌーイ尤度に基づくより効率的な目的関数を提案することで、対照的学習の限界を克服すること。
手動アノテーションなしでイントラクラスおよびインタクラスの知識を学習できるようにすること。
標準データセットおよびバックボーンを横断的に評価することで、最先端の手法と公平に比較できるようにすること。

提案手法

本手法は、二重タスクの関係的推論ヘッドを用い、2つの画像ビューが同一オブジェクトに属するか（イントラ推論）または異なるオブジェクトに属するか（インタ推論）を分類する。
関係ヘッドは、特徴埋め込みに適用される学習可能な関数を用いて、特徴ペアが同じクラスに属するか否かを予測する二値分類目的関数で訓練される。
バックボーンネットワークは、同じ画像の複数の拡張ビュー（学習時K=4、フル設定時K=32）を処理し、ペアワイズ比較のための特徴を連結して集約する。
ネガティブペアは、ペア内の2番目のオブジェクトの特徴埋め込みをシャッフルすることで作成され、モデルが本物のペアとランダムペアを区別するように学習させる。
訓練目的は、予測された類似度スコアのベルヌーイ尤度を最大化することであり、これは相互情報量の代理として機能し、学習の効率性を向上させる。
事前学習後、関係ヘッドは破棄され、分類や画像検索などの下流タスク用にバックボーンがファインチューニングされる。

実験結果

リサーチクエスチョン

RQ1同一オブジェクトのビュー間および異なるオブジェクト間の関係的推論は、自己教師あり表現学習を向上させることができるか？
RQ2ベルヌーイ尤度を最大化することは、標準的な対照的損失よりも優れた表現学習をもたらすか？
RQ3提案手法は、多様なベンチマークおよびバックボーンアーキテクチャにおいて、最先端の自己教師ありモデルと比較してどうなるか？
RQ4この手法は、異なるデータセットおよびデータ拡張法に対してどの程度一般化可能か？

主な発見

提案手法は、評価されたすべてのデータセットおよび設定において、最良の競合他手法よりも平均14%の分類精度で優れている。
CIFAR-10、CIFAR-100、STL-10、tiny-ImageNetを含む標準ベンチマークにおいて、最近の最先端モデルよりも3%の向上を達成した。
浅いおよび深いバックボーンアーキテクチャの両方で一貫した向上を示しており、モデル容量に対して頑健であることが示された。
目的関数としてベルヌーイ尤度を用いることで、対照的損失と比較してより効率的な学習が可能となり、同等または優れた性能を達成した。
アブレーションスタディにより、イントラ推論およびインタ推論の両コンponentが最終的な性能に顕著に寄与することが確認された。
画像検索などの下流タスクにおいても良好な一般化性能を示し、関係的インダクティブバイアスのおかげで特徴品質が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。