[논문 리뷰] Soft Neighbors are Positive Supporters in Contrastive Visual Representation Learning
SNCLR은 후보 이웃 집합에 대한 교차 주의 기반 양성도 점수(positiveness score)를 사용하여 대조적 자기지도학습에서 부드러운 인접 양성을 도입하고, CNN 및 ViT 인코더의 표현을 분류, 탐지, 분할 작업 전반에 걸쳐 향상시킵니다.
Contrastive learning methods train visual encoders by comparing views from one instance to others. Typically, the views created from one instance are set as positive, while views from other instances are negative. This binary instance discrimination is studied extensively to improve feature representations in self-supervised learning. In this paper, we rethink the instance discrimination framework and find the binary instance labeling insufficient to measure correlations between different samples. For an intuitive example, given a random image instance, there may exist other images in a mini-batch whose content meanings are the same (i.e., belonging to the same category) or partially related (i.e., belonging to a similar category). How to treat the images that correlate similarly to the current image instance leaves an unexplored problem. We thus propose to support the current image by exploring other correlated instances (i.e., soft neighbors). We first carefully cultivate a candidate neighbor set, which will be further utilized to explore the highly-correlated instances. A cross-attention module is then introduced to predict the correlation score (denoted as positiveness) of other correlated instances with respect to the current one. The positiveness score quantitatively measures the positive support from each correlated instance, and is encoded into the objective for pretext training. To this end, our proposed method benefits in discriminating uncorrelated instances while absorbing correlated instances for SSL. We evaluate our soft neighbor contrastive learning method (SNCLR) on standard visual recognition benchmarks, including image classification, object detection, and instance segmentation. The state-of-the-art recognition performance shows that SNCLR is effective in improving feature representations from both ViT and CNN encoders.
연구 동기 및 목표
- 대조적 학습에서 정확한 인스턴스 이외의 서로 다른 이미지 간의 상관관계를 강조하여 이진 인스턴스 구분에 대한 재고를 촉진한다.
- 현재 샘플을 보조하기 위해 부드럽고 높은 상관관계를 가지는 이웃 인스턴스를 식별하고 활용하는 메커니즘을 개발한다.
- 대조 손실에서 이웃을 부드럽게 가중하기 위해 교차 주의 기반의 양성도 점수를 통합한다.
- 학습된 표현의 다운스트림 작업으로의 전이 가능성을 부드러운 이웃을 포함함으로써 향상시킨다.
제안 방법
- 다른 이미지로부터 최근접 이웃의 후보 이웃 집합을 구성한다.
- 현재 뷰와 각 후보 이웃 간의 교차 주의 기반 양성도 점수 w_i를 계산하여 부드러운 가중치를 얻는다.
- 이 가중치를 대조 손실에 양의 기여의 가중합으로 포함시킨다(식 Eq. 2).
- 이웃 식별을 위한 모멘텀 분기 특징을 저장하는 메모리 큐 C를 사용한다(Eq. 3).
- 표준 SSL 백본(ResNet 및 ViT)을 적절한 옵티마이저(LARS는 ResNet용, AdamW는 ViT용)와 증강을 사용하여 기존 SSL 관행에 따라 학습한다.
- 양성도, 이웃 수, 후보 세트 크기가 성능에 미치는 영향을 보여주기 위한 시각화와 소거(ablation)를 제공한다.
실험 결과
연구 질문
- RQ1다른 이미지 간의 부드럽고 등급화된 상관관계가 이진 인스턴스 구분보다 대조 학습을 개선할 수 있는가?
- RQ2SSL에서 특정 뷰를 가장 잘 지원하도록 이웃 인스턴스를 어떻게 선택하고 가중치해야 하는가?
- RQ3소프트 이웃 개선이 CNN과 ViT 아키텍처 모두 및 분류, 탐지, 분할과 같은 작업에 걸쳐 일반화되는가?
주요 결과
- SNCLR은 ImageNet에서 ResNet-50의 상위 1위 정확도에서 여러 자기감독학습 기준선보다 일관되게 향상시켰다(예: 여러 에포크에서 이전 방법을 능가).
- ViT 기반 인코더(ViT-S, ViT-B)도 소프트 이웃의 이점을 얻어 여러 경쟁적 SSL 방법보다 더 높은 정확도를 달성한다.
- 큰 후보 세트와 양성도 가중치를 포함한 30개의 소프트 이웃을 사용한 침관 실험에서 최상의 성능이 나타났으며, 이웃 수와 부드러운 가중치의 중요성을 시사한다.
- 사전 학습 신호로 사용될 때 COCO에서 객체 탐지 및 인스턴스 분할로의 전이가 개선되며 여러 SSL 기준선보다 더 높은 AP 지표를 달성한다.
- 부분 지도 설정에서 ResNet-50 및 ViT-S 백본 전반에 걸쳐 제한된 레이블 데이터로 강력한 top-1 및 top-5 성능을 달성하는 SNCLR를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.