QUICK REVIEW

[논문 리뷰] Transitive Invariance for Self-supervised Visual Representation Learning

Xiaolong Wang, Kaiming He|arXiv (Cornell University)|2017. 08. 09.

Domain Adaptation and Few-Shot Learning참고 문헌 51인용 수 22

한 줄 요약

이 논문은 영상 데이터에서 상호작용 및 내부 인스턴스 변형을 통해 대규모 유사도 그래프를 구성함으로써 이행성 불변성을 활용하는 자기지도 학습 시각 표현 학습 방법을 제안한다. 이 그래프에 이행성을 적용하여 트리플릿-시앙세이 네트워크를 VGG16 기반으로 훈련하기 위한 더 풍부한 불변성을 생성하며, 객체 검출(2007 PASCAL VOC에서 63.2% mAP 및 COCO에서 23.5% AP)에서 최신 기술 수준 성능을 달성하고, 표면 법선 추정에서 ImageNet 사전학습을 초월한다.

ABSTRACT

Learning visual representations with self-supervised learning has become popular in computer vision. The idea is to design auxiliary tasks where labels are free to obtain. Most of these tasks end up providing data to learn specific kinds of invariance useful for recognition. In this paper, we propose to exploit different self-supervised approaches to learn representations invariant to (i) inter-instance variations (two objects in the same class should have similar features) and (ii) intra-instance variations (viewpoint, pose, deformations, illumination, etc). Instead of combining two approaches with multi-task learning, we argue to organize and reason the data with multiple variations. Specifically, we propose to generate a graph with millions of objects mined from hundreds of thousands of videos. The objects are connected by two types of edges which correspond to two types of invariance: "different instances but a similar viewpoint and category" and "different viewpoints of the same instance". By applying simple transitivity on the graph with these edges, we can obtain pairs of images exhibiting richer visual invariance. We use this data to train a Triplet-Siamese network with VGG16 as the base architecture and apply the learned representations to different recognition tasks. For object detection, we achieve 63.2% mAP on PASCAL VOC 2007 using Fast R-CNN (compare to 67.3% with ImageNet pre-training). For the challenging COCO dataset, our method is surprisingly close (23.5%) to the ImageNet-supervised counterpart (24.4%) using the Faster R-CNN framework. We also show that our network can perform significantly better than the ImageNet network in the surface normal estimation task.

연구 동기 및 목표

인간의 레이블 없이 더 풍부한 시각적 불변성을 활용하여 자기지도 학습과 지도 학습 간 격차를 해소하고자 한다.
다중 작업 학습이 아닌 데이터 추론을 통해 인스턴스 간 및 인스턴스 내 변형을 조합함으로써 자기지도 모델의 일반화 능력을 향상시키고자 한다.
자기지도 표현이 객체 검출 및 표면 법선 추정과 같은 하류 작업에서 ImageNet 사전학습을 뛰어넘거나 대체할 수 있음을 입증하고자 한다.
도전적인 COCO 객체 검출 데이터셋에서 자기지도 사전학습을 위한 새로운 벤치마크를 설정하고자 한다.

제안 방법

수십만 개의 영상에서 대규모 유사도 그래프를 구성하며, 객체 추적 및 인스턴스 수준 공통성 학습을 통해 두 가지 유형의 간선을 정의한다: 인스턴스 간(동일한 카테고리, 유사한 시점) 및 인스턴스 내(동일한 객체의 다른 시점).
이 그래프에 이행성 추론을 적용하여 개별 원천을 초월하는 복합적이고 복합적인 불변성을 나타내는 새로운 이미지 쌍을 생성한다.
이행성 쌍을 사용하여 VGG16을 백본으로 사용하는 트리플릿-시앙세이 네트워크를 훈련시켜 다중 변형에 대해 불변인 시각 표현을 학습한다.
객체 검출(Fast R-CNN, Faster R-CNN) 및 표면 법선 추정(FCN-32s)과 같은 하류 작업에서 학습된 표현을 미세조정한다.
인간의 감독 없이도 비지도 추적(예: [61]) 및 인스턴스 공통성 학습(예: [9])을 사용하여 그래프 내 간선을 탐색한다.
PASCAL VOC 2007, COCO, NYUv2에서 성능을 평가하며, ImageNet 사전학습 및 이전 자기지도 학습 방법과 비교한다.

실험 결과

연구 질문

RQ1자기지도 데이터에 대한 이행성 추론이 개별 불변성 유형을 초월하여 시각 표현 학습을 향상시킬 수 있는가?
RQ2이행성 불변성을 통해 학습된 자기지도 표현이 객체 검출 벤치마크에서 ImageNet 사전학습을 따라하거나 뛰어넘을 수 있는가?
RQ3제안된 방법이 표면 법선 추정과 같은 저수준 시각 작업에서 이전 자기지도 접근법보다 더 잘 일반화되는가?
RQ4왜 별개의 불변성 목표를 다중 작업 학습으로 합치는 것은 성능 향상을 이끌지 못하는가? 그리고 이행성에 기반한 데이터 수준의 조합은 이를 극복할 수 있는가?

주요 결과

Fast R-CNN에 VGG16을 사용하여 2007 PASCAL VOC에서 63.2% mAP를 달성하며, ImageNet 사전학습의 67.3% mAP에 근접한다.
COCO 객체 검출에서 자기지도 사전학습 결과를 처음으로 보고하며, 23.5% AP를 달성하여 ImageNet 사전학습의 24.4% AP에 1% 내외로 근접한다.
NYUv2 표면 법선 추정 작업에서 자기지도 모델이 ImageNet 사전학습을 초월하며, 평균 오차 26.0° 및 오차 <30°인 픽셀 비율 67.5%를 기록했고, ImageNet은 각각 27.8° 및 63.4%였다.
표면 법선 추정에서 이전 자기지도 접근법 [9] 및 [61]보다 유의미하게 뛰어나며, 11.25° 오차 기준에서 4.3% 향상된 성능을 기록한다.
완전 연결층만 미세조정할 경우, 자기지도 모델은 VOC2007에서 43.1% mAP를 달성하여 경쟁자들보다 뚜렷이 뛰어나다.
절단 분석 결과, 인스턴스 간 및 인스턴스 내 불변성의 다중 작업 학습은 성능 향상을 이끌지 못하며, 손실 수준의 조합이 아닌 데이터 수준의 이행성 조합이 유의미한 이점을 제공함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.