QUICK REVIEW

[논문 리뷰] Self-Supervised Relational Reasoning for Representation Learning

Massimiliano Patacchiola, Amos Storkey|arXiv (Cornell University)|2020. 06. 10.

Domain Adaptation and Few-Shot Learning참고 문헌 62인용 수 29

한 줄 요약

이 논문은 이진 분류 헤드를 사용하여 동일 객체 간의 내부 클래스(뷰 간 동일 객체) 관계와 다른 객체 간의 외부 클래스(다른 시나리오 간 다른 객체) 관계를 구별함으로써, 신경망이 풍부한 시각적 표현을 학습하도록 하는 자기지도 학습 관계 추론 프레임워크를 제안한다. 이 방법은 표준 벤치마크에서 이전 방법보다 평균 14% 높은 정확도를 기록하며, 베르누이 로그우도 최적화를 통한 대비 학습보다 효율성이 향상된 상태의 최고 성능을 달성한다.

ABSTRACT

In self-supervised learning, a system is tasked with achieving a surrogate objective by defining alternative targets on a set of unlabeled data. The aim is to build useful representations that can be used in downstream tasks, without costly manual annotation. In this work, we propose a novel self-supervised formulation of relational reasoning that allows a learner to bootstrap a signal from information implicit in unlabeled data. Training a relation head to discriminate how entities relate to themselves (intra-reasoning) and other entities (inter-reasoning), results in rich and descriptive representations in the underlying neural network backbone, which can be used in downstream tasks such as classification and image retrieval. We evaluate the proposed method following a rigorous experimental procedure, using standard datasets, protocols, and backbones. Self-supervised relational reasoning outperforms the best competitor in all conditions by an average 14% in accuracy, and the most recent state-of-the-art model by 3%. We link the effectiveness of the method to the maximization of a Bernoulli log-likelihood, which can be considered as a proxy for maximizing the mutual information, resulting in a more efficient objective with respect to the commonly used contrastive losses.

연구 동기 및 목표

비라벨 데이터의 암묵적 관계적 구조를 활용하여 강력한 시각적 표현을 학습하는 자기지도 학습 방법을 개발하기 위해.
베르누이 로그우도 기반의 더 효율적인 목적 함수를 제안하여 대비 학습의 한계를 해결하기 위해.
수동 애너테이션 없이 내부 클래스 및 외부 클래스 지식을 모두 학습할 수 있도록 하기 위해.
표준 데이터셋과 백본을 통해 철저히 평가하여 최신 기술과 공정한 비교를 확보하기 위해.

제안 방법

이 방법은 두 가지 작업을 수행하는 관계 추론 헤드를 사용하여, 두 이미지 뷰가 동일한 객체에 속하는지(내부 추론) 아니면 다른 객체에 속하는지(외부 추론)를 분류한다.
관계 헤드는 이중 분류 목적 함수를 사용하여, 쌍의 특징이 같은 클래스에서 유래했는지 여부를 예측한다. 이는 특징 임bedding에 적용되는 학습 가능한 함수를 사용한다.
백본 네트워크는 동일한 이미지의 여러 증강된 뷰를 처리한다(학습 시 K=4, 전체 설정 시 K=32까지). 특징은 쌍 간 비교를 위해 연결(concatenation)된다.
음성 페어는 쌍의 두 번째 객체의 특징 임베딩을 무작위로 재배열하여 생성되며, 이는 모델이 실제 쌍과 무작위 쌍을 구별하도록 유도한다.
학습 목적 함수는 예측된 유사도 점수의 베르누이 로그우도를 최대화하며, 이는 상호 정보의 대체 지표로 작용하고 학습 효율성을 향상시킨다.
사전 학습 후 관계 헤드는 제거되고, 백본은 분류 및 이미지 검색과 같은 최종 작업을 위해 미세조정된다.

실험 결과

연구 질문

RQ1동일 객체의 뷰 간 및 다른 객체 간의 관계 추론이 자기지도 표현 학습을 향상시킬 수 있는가?
RQ2베르누이 로그우도를 최대화하는 것이 표준 대비 손실보다 더 나은 표현 학습을 이끌 수 있는가?
RQ3제안된 방법은 다양한 벤치마크와 백본 아키텍처에서 최신 자기지도 모델과 어떻게 비교되는가?
RQ4이 방법은 다양한 데이터셋과 데이터 증강 기법에 대해 얼마나 일반화되는가?

주요 결과

제안된 방법은 평가된 모든 데이터셋과 설정에서 최고의 경쟁자 대비 평균 14% 높은 분류 정확도를 기록한다.
CIFAR-10, CIFAR-100, STL-10, tiny-ImageNet 등의 표준 벤치마크에서 최근 최고 성능을 기록한 모델보다 3% 향상된 성능을 달성한다.
얕은 및 깊은 백본 아키텍처 모두에서 일관된 성능 향상을 보이며, 모델 용량에 대해 강건함을 입증한다.
목적 함수로 베르누이 로그우도를 사용함으로써 대비 손실 대비 더 효율적인 학습이 가능하며, 동등하거나 더 나은 성능을 기록한다.
제거 실험(ablation study)는 내부 추론 및 외부 추론 구성 요소가 최종 성능에 크게 기여한다는 것을 확인한다.
관계적 인덕티브 바이어스 덕분에 이미지 검색과 같은 최종 작업으로의 일반화가 잘 되며, 향상된 특징 품질을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.