QUICK REVIEW

[논문 리뷰] What Makes for Good Views for Contrastive Learning?

Yonglong Tian, Chen Sun|arXiv (Cornell University)|2020. 05. 20.

Adult and Continuing Education Topics참고 문헌 87인용 수 527

한 줄 요약

본 논문은 InfoMin 원칙을 제안한다: 대조학습에서 최적의 뷰는 뷰 간 상호정보를 최소화하되 태스크 관련 정보를 보존하며, 강력한 데이터 증가와 반지도 학습 뷰-학습 프레임워크를 통해 ImageNet에서 최첨단 성능을 달성한다.

ABSTRACT

Contrastive learning between multiple views of the data has recently achieved state of the art performance in the field of self-supervised representation learning. Despite its success, the influence of different view choices has been less studied. In this paper, we use theoretical and empirical analysis to better understand the importance of view selection, and argue that we should reduce the mutual information (MI) between views while keeping task-relevant information intact. To verify this hypothesis, we devise unsupervised and semi-supervised frameworks that learn effective views by aiming to reduce their MI. We also consider data augmentation as a way to reduce MI, and show that increasing data augmentation indeed leads to decreasing MI and improves downstream classification accuracy. As a by-product, we achieve a new state-of-the-art accuracy on unsupervised pre-training for ImageNet classification ($73\%$ top-1 linear readout with a ResNet-50). In addition, transferring our models to PASCAL VOC object detection and COCO instance segmentation consistently outperforms supervised pre-training. Code:http://github.com/HobbitLong/PyContrast

연구 동기 및 목표

대조표현 학습에 미치는 뷰 선택의 영향 정의 및 분석.
최적의 뷰가 뷰 간 상호정보를 최소화하되 태스크 관련 정보를 보존하도록 제안한다.
뷰의 MI와 다운스트림 성능 사이의 태스크 의존적이며 일반적으로 역-U 형태의 관계를 보여준다.
InfoMin 원칙 하에서 효과적인 뷰를 학습하기 위한 비지도 및 반지도 방법을 개발한다.
최첨단 ImageNet 선형 리드아웃 결과와 다운스트림 작업으로의 이전 이득을 보인다.

제안 방법

InfoNCE를 통한 상호정보 목표를 갖는 다중 뷰 대조학습을 형식화한다.
뷰를 위한 충분하고 최소 충분한 인코더(f1, f2)를 정의한다.
InfoMin 명제를 제안한다: 최적의 뷰는 I(v1; v2)를 최소화하되 I(v1; y)=I(v2; y)=I(x; y)를 충족한다.
I(v1; v2)와 다운스트림 정확도 간의 역-U 관계를 시연한다(대리로 I_NCE 사용).
레이블 관련 정보를 보존하면서 MI를 줄이는 뷰를 합성하기 위한 비지도 및 반지도 뷰 학습 방법을 도입한다.
MI를 줄이고 다운스트림 성능을 향상시키는 정보 최소화 증강(InfoMin Aug) 전략을 제시한다.

실험 결과

연구 질문

RQ1대조학습에서 뷰의 선택이 포착되는 정보와 다운스트림 태스크 성능에 어떤 영향을 미치는가?
RQ2뷰 간 상호정보의 최적 지점이 전달 성능을 극대화하며, 이 지점은 얼마나 태스크 의존적인가?
RQ3InfoMin 원칙에 부합하도록 비지도 또는 반지도 방식으로 뷰를 학습하여 표현을 개선할 수 있는가?
RQ4상호정보를 줄이려는 더 강력한 데이터 증강이 더 나은 다운스트림 정확도와 전달을 가져오나요?
RQ5InfoMin 프레임워크가 ImageNet의 최첨단 자기지도 학습 및 다운스트림 작업에서 관찰된 개선을 설명할 수 있는가?

주요 결과

최적의 뷰는 태스크 의존적이다.
뷰 간 상호정보와 표현 품질 사이에 설정 전반에 걸쳐 역-U 관계가 있다.
비지도 및 반지도 뷰 학습은 InfoMin 원칙 하에서 효과적인 뷰를 생성할 수 있다.
MI를 줄이는 더 강력한 데이터 증강은 다운스트림 정확도를 향상시키며 ImageNet 선형 리드아웃에서 최첨단 성능에 도달할 수 있다(ResNet-50로 73.0% top-1).
InfoMin 증강 뷰는 COCO/PASCAL VOC 설정의 여러 케이스에서 감독 학습 사전 학습보다 객체 탐지 및 분할 작업으로 더 잘 전달된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.