[논문 리뷰] ReSSL: Relational Self-Supervised Learning with Weak Augmentation
ReSSL은 증강된 뷰들 간의 관계적 유사성을 모델링하여 시각적 표현을 학습하며, 약한 증강과 모멘텀 메모리 타겟을 사용해 이전 SSL 방법들보다 효율성과 성능을 개선한다.
Self-supervised Learning (SSL) including the mainstream contrastive learning has achieved great success in learning visual representations without data annotations. However, most of methods mainly focus on the instance level information (\ie, the different augmented images of the same instance should have the same feature or cluster into the same class), but there is a lack of attention on the relationships between different instances. In this paper, we introduced a novel SSL paradigm, which we term as relational self-supervised learning (ReSSL) framework that learns representations by modeling the relationship between different instances. Specifically, our proposed method employs sharpened distribution of pairwise similarities among different instances as extit{relation} metric, which is thus utilized to match the feature embeddings of different augmentations. Moreover, to boost the performance, we argue that weak augmentations matter to represent a more reliable relation, and leverage momentum strategy for practical efficiency. Experimental results show that our proposed ReSSL significantly outperforms the previous state-of-the-art algorithms in terms of both performance and training efficiency. Code is available at \url{https://github.com/KyleZheng1997/ReSSL}.
연구 동기 및 목표
- 인스턴스 수준의 불변성만을 강제하는 것이 아니라 인스턴스 간 관계를 보존함으로써 표현 학습을 촉진한다.
- 증강 간의 유사도 분포를 정렬시키는 관계적 일관성 손실을 도입한다.
- 안정적이고 정보가 풍부한 타깃을 제공하면서 학습 효율을 높이기 위해 약한 증강과 모멘텀 기반 교사를 사용한다.
- 작은 규모에서 중간 규모, 대규모 비전 벤치마크에 걸쳐 강력한 실험적 이점을 보여준다.
제안 방법
- 증강 뷰 간의 쌍별 유사도에 대해 샤프닝된 분포로 구성된 관계 지표를 정의한다.
- 각 이미지에 대해 두 개의 증강 뷰를 구성하고 온도 tau_t와 tau_s를 사용한 소프트맥스(softmax)를 통해 유사도 기반의 관계 분포 p1과 p2를 계산한다.
- p1과 p2 사이의 KL 발산을 최소화하여 관계적 일관성을 강제한다(타깃으로 p1에 대한 크로스 엔트로피를 사용).
- 모멘텀으로 업데이트되는 교사 네트워크와 메모리 큐를 활용하여 대규모 배치의 관계를 시뮬레이션하고 타깃을 안정화한다(대규모 메모리 요구 사항 없음).
- 교사에 약한 증강을 채택하여 신뢰할 수 있는 관계 타깃을 제공하고, 이들 관계로부터 학습하는 대조적 유사 학생을 사용한다.
- 일반적인 대조 손실을 제안된 관계적 일관성 손실로 대체하여 비교적 적은 학습 비용으로 최첨단 성과를 달성한다.
실험 결과
연구 질문
- RQ1증강 간의 인스턴스 간 관계 구조를 보존하는 것이 전통적 인스턴스 판별을 넘어 표현 학습을 개선할 수 있는가?
- RQ2타깃에 대해 더 약한 증강을 사용하면 더 신뢰할 수 있는 관계 분포와 더 나은 성능을 얻을 수 있는가?
- RQ3메모리 큐 크기와 교사 모멘텀이 관계 타깃의 품질 및 다운스트림 정확도에 미치는 영향은 무엇인가?
- RQ4표준 SSL 벤치마크(ImageNet 선형 평가, 전이 작업)에서 ReSSL의 성능은 강력한 기초 방법들과 비교해 어떠한가?
- RQ5다중 역전파 SSL 방법들보다 학습 효율이 더 높은가, 성능을 유지하거나 향상시키면서?
주요 결과
- ReSSL은 ImageNet에서 200 에폭 선형 평가(EMA를 사용한 1x 역전파)로 69.9% Top-1을 달성하여 MoCoV2보다 2.4% 포인트 앞선다.
- 멀티크롭 전략으로 ImageNet에서 74.7% Top-1에 도달하여 CLSA-Multi를 1.4% 포인트 앞선다.
- 약한 교사 증강은 CIFAR-10, CIFAR-100, STL-10, Tiny ImageNet 전반에서 성능을 크게 향상시킨다.
- 관계 타깃을 위한 더 큰 메모리 뱅크(최대 16384)가 정확도를 높이며, 큰 크기 이상에서는 수익이 감소한다.
- ImageNet 1k에서 2x 역전파로도 ReSSL은 여러 기초 방법들보다 경쟁력 있으며 우수하다; 4 crops를 사용하면 이전 최첨단 방법들을 능가한다.
- t-SNE 시각화는 ReSSL이 MoCoV2에 비해 더 나은 클래스 구분을 보여 주며 학습된 특징의 관계 구조가 더 명확함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.