QUICK REVIEW

[논문 리뷰] What Should Not Be Contrastive in Contrastive Learning

Tete Xiao, Xiao-Long Wang|arXiv (Cornell University)|2020. 08. 13.

Domain Adaptation and Few-Shot Learning참고 문헌 37인용 수 92

한 줄 요약

이 논문은 Leave-one-out Contrastive Learning (LooC)을 제안합니다. 이는 모든 증강에 대해 하나의 증강만 불변인 여러 임베딩 공간을 학습하는 다-head 대조 학습 프레임워크로, 전이 가능성, 로버스트성 및 다양한 태스크에서의 성능을 향상시킵니다.

ABSTRACT

Recent self-supervised contrastive methods have been able to produce impressive transferable visual representations by learning to be invariant to different data augmentations. However, these methods implicitly assume a particular set of representational invariances (e.g., invariance to color), and can perform poorly when a downstream task violates this assumption (e.g., distinguishing red vs. yellow cars). We introduce a contrastive learning framework which does not require prior knowledge of specific, task-dependent invariances. Our model learns to capture varying and invariant factors for visual representations by constructing separate embedding spaces, each of which is invariant to all but one augmentation. We use a multi-head network with a shared backbone which captures information across each augmentation and alone outperforms all baselines on downstream tasks. We further find that the concatenation of the invariant and varying spaces performs best across all tasks we investigate, including coarse-grained, fine-grained, and few-shot downstream classification tasks, and various data corruptions.

연구 동기 및 목표

대조 학습에서 작업 특화 증강 불변성에 대한 의존도를 줄이려는 동기를 제시한다.
증강을 수동으로 선택하지 않고도 증강-불변 및 증강-변이 요인 모두를 학습하는 프레임워크를 개발한다.
임베딩 공간을 결합해 다운스트림 작업이 서로 다른 변이 요인을 선택적으로 사용할 수 있도록 한다.
다양한 다운스트림 태스크(거친/정밀 구분, 소수 샷 등) 및 손상(오염) 설정에서 접근법을 평가한다.
여러 증강을 적용한 경우 기본 MoCo 대비 전이가능성 개선을 보인다.

제안 방법

공유 백본과 다중 임베딩 헤드를 갖춘 Leave-one-out Contrastive Learning (LooC)을 도입한다.
한 헤드는 단일 증강을 분리하고 나머지 헤드가 불변성을 포착하도록 하는 증강 체계를 사용해 뷰를 생성한다.
공유 공간 V로 투사한 다음 Z0(모든 증강에 대해 불변) 및 Zi(해당 i번째 증강을 제외한 모든 증강에 불변)으로 투사한다.
각 증강 쌍을 해당 헤드 내에서 정렬시키고 모든 헤드의 네거티브와 대비시키는 다-공간 대조 목표를 최적화한다(Eq. 2).
선택적으로 모든 임베딩 공간을 연결하여 더 풍부한 다운스트림 표현(LooC++)을 형성한다.
ResNet-50 백본과 두 층 MLP 헤드, 각 임베딩 공간에 대해 MoCo 스타일 큐를 사용한다.

실험 결과

연구 질문

RQ1증강으로 유발된 불변성이 태스크 간의 다운스트림 성능에 어떤 영향을 미치는가?
RQ2다중 헤드 구성은 개별 증강에 연결된 정보를 보존하고 활용하면서 다른 증강에 대해서도 강건함을 유지할 수 있는가?
RQ3불변 공간과 증강-특정 공간을 결합하는 것이 다양한 다운스트림 데이터셋으로의 전이를 개선하는가?
RQ4회전, 색상 변화, 질감 등을 포함한 여러 증강을 도입할 때 LooC는 표준 MoCo와 어떻게 비교되는가?
RQ5증강 의존 특징이 실제 데이터 손상에 대한 로버스트성에 미치는 영향은 무엇인가?

주요 결과

여러 증강을 사용할 때 LooC는 여러 다운스트림 태스크에서 기본 MoCo를 능가한다.
LooC는 증강-특정 정보를 유지하고 활용하여 미세 구분 및 소샷 태스크에서 더 나은 성능을 달성한다.
LooC++(모든 공간의 연결)는 다양한 데이터셋(IN-100, iNat-1k, Flowers-102)에서 가장 강한 전반적 이득을 제공한다.
회전 증강만으로 MoCo 성능이 저하되는 반면, LooC는 회전으로 얻은 정보 이득을 더 잘 활용한다.
질감 증강은 IN-C-100에서 로버스트성을 향상시키고, 회전과 질감을 결합하면 실제 데이터와 손상 데이터 세트 모두에서 이득을 얻는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.