Skip to main content
QUICK REVIEW

[논문 리뷰] Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations

Wouter Van Gansbeke, Simon Vandenhende|arXiv (Cornell University)|2021. 06. 10.
Domain Adaptation and Few-Shot Learning참고 문헌 61인용 수 34
한 줄 요약

이 논문은 대조적 자기지도 학습(MoCo 기반)에서 데이터세트 편향을 분석하고 표준 증강이 객체 중심, 장면 중심, 균등 또는 롱테일 및 도메인 특이 데이터에 전달되는지 보여주며; 또한 표현을 향상시키는 추가 불변성(다중 크롭, 더 강한 증강, 최근 이웃)을 도입하고 다중 크롭으로부터 얻은 공간적으로 구조화된 특징을 시연한다.

ABSTRACT

Contrastive self-supervised learning has outperformed supervised pretraining on many downstream tasks like segmentation and object detection. However, current methods are still primarily applied to curated datasets like ImageNet. In this paper, we first study how biases in the dataset affect existing methods. Our results show that current contrastive approaches work surprisingly well across: (i) object- versus scene-centric, (ii) uniform versus long-tailed and (iii) general versus domain-specific datasets. Second, given the generality of the approach, we try to realize further gains with minor modifications. We show that learning additional invariances -- through the use of multi-scale cropping, stronger augmentations and nearest neighbors -- improves the representations. Finally, we observe that MoCo learns spatially structured representations when trained with a multi-crop strategy. The representations can be used for semantic segment retrieval and video instance segmentation without finetuning. Moreover, the results are on par with specialized models. We hope this work will serve as a useful study for other researchers. The code and models are available at https://github.com/wvangansbeke/Revisiting-Contrastive-SSL.

연구 동기 및 목표

  • 데이터세트 편향(객체 중심 대 장면 중심, 균등 대 롱테일, 일반 대 도메인 특이성)이 대조적 자기지도 학습에 어떤 영향을 미치는지 평가한다.
  • 새로운 사전처리 작업 없이도 표현을 개선할 수 있는 간단하고 모델 비의존적인 수정 방법을 탐색한다.
  • 아키텍처/데이터 단서가 밀집(Dense) 작업에 유용한 공간적으로 구조화된 표현을 만들어내는지 조사한다.
  • 배운 표현의 광범위한 다운스트림 작업으로의 전달 가능성을 평가한다.

제안 방법

  • ResNet-50 백본과 프로젝션 헤드를 갖춘 MoCo를 기반으로 하며, 음수를 제공하기 위해 모멘텀 인코더가 있는 메모리 은행을 사용한다.
  • 다양한 데이터세트(ImageNet, COCO, OpenImages, BDD100K)에서의 프리트레이닝을 평가하고 선형, 분할, 탐지, 비디오 분할, 깊이 추정 작업으로의 전이를 평가한다.
  • 객체 중심 대 장면 중심 데이터와 균등 대 롱테일 분포를 비교하여 데이터편향 효과를 연구한다.
  • 다음 세 가지 불변성 강화 추가를 제안한다: 다중 크롭 변환, 더 강한 증강, 온라인 최근접 이웃 양성.
  • 제약된 다중 크롭 및 모멘텀 축소를 통한 다중 크롭을 도입해 학습 효율성을 향상시킨다.
  • kNN-MoCo 제안: 백본 특징으로부터 두 번째 큐를 사용한 최근접 이웃 보조 손실로 표현을 정규화한다.

실험 결과

연구 질문

  • RQ1MoCo와 유사한 대조적 SSL 방법은 객체 중심 데이터셋과 비교했을 때 장면 중심 또는 롱테일 데이터셋에서 성능이 저하되는가?
  • RQ2간단하고 데이터세트에 의존하지 않는 증강이 맞춤 도메인 선행 없이도 다양한 다운스트림 작업에 전달될 수 있는가?
  • RQ3추가 불변성(다중 크롭, 더 강한 증강, 최근접 이웃)이 전달 성능을 향상시키고 라벨이 없는 상태에서 밀집 표현을 가능하게 하는가?
  • RQ4다중 크롭 학습이 파인튜닝 없이도 밀집 예측 작업에 유용한 공간적으로 구조화된 표현을 생성하는가?

주요 결과

  • MoCo 기반 프리트레이닝은 객체 중심 및 장면 중심 데이터 세트 모두에서, 균등 및 롱테일 분포에서도 견고하게 작동한다.
  • 프리트레이닝 중 데이터 다양성 증가(COCO/OpenImages)는 미세조정 시 여러 작업에서 ImageNet 사전 학습 결과에 맞서거나 이를 능가할 수 있다.
  • 다중 크롭 및 제약된 다중 크롭은 전이에 큰 개선을 가져오고, 미세조정 없이도 밀집 작업을 지원하는 공간적으로 구조화된 표현 학습을 가능하게 한다.
  • 더 강한 증강만으로는 항상 도움이 되지 않을 수 있으며, 표준 증강과 더 강한 증강의 결합이 VOC 분할 성능을 더 좋게 만든다.
  • 최근접 이웃 증강(kNN-MoCo)은 선형 분류 전이를 추가로 향상시키고 여러 작업에서 이득을 유지한다.
  • 이 불변성으로 사전학습된 최종 모델은 비디오 인스턴스 분할 및 시맨틱 세그먼트 검색을 포함해 여러 작업에서 특화 방법에 비해 경쟁력 있거나 우수한 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.