[논문 리뷰] Supervised Contrastive Learning
본 논문은 SupCon을 소개합니다. 이는 같은 클래스의 모든 샘플을 양성으로 사용하는 대조 학습의 감독 확장으로, ImageNet에서 최첨단 성과를 달성하고 로버스트성 및 하이퍼파라미터 안정성이 향상되었습니다.
Contrastive learning applied to self-supervised representation learning has seen a resurgence in recent years, leading to state of the art performance in the unsupervised training of deep image models. Modern batch contrastive approaches subsume or significantly outperform traditional contrastive losses such as triplet, max-margin and the N-pairs loss. In this work, we extend the self-supervised batch contrastive approach to the fully-supervised setting, allowing us to effectively leverage label information. Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. We analyze two possible versions of the supervised contrastive (SupCon) loss, identifying the best-performing formulation of the loss. On ResNet-200, we achieve top-1 accuracy of 81.4% on the ImageNet dataset, which is 0.8% above the best number reported for this architecture. We show consistent outperformance over cross-entropy on other datasets and two ResNet variants. The loss shows benefits for robustness to natural corruptions and is more stable to hyperparameter settings such as optimizers and data augmentations. Our loss function is simple to implement, and reference TensorFlow code is released at https://t.ly/supcon.
연구 동기 및 목표
- 레이블 정보를 활용하여 같은 클래스의 임베딩을 모으고 서로 다른 클래스는 멀리 떨어지게 한다.
- 앵커당 다수의 양성을 갖는 완전 감독 설정으로 자기-감독 대조 손실을 확장한다.
- 가장 성능이 좋은 감독 대조 손실 형태를 분석하고 식별한다.
- 크로스 엔트로피에 비해 최첨단 ImageNet 결과와 향상된 로버스트성 및 안정성을 입증한다.
제안 방법
- 각 입력에 대해 데이터 증강을 적용하여 두 가지 보기(view)를 생성한다.
- 공유 인코더로 보기를 인코딩하여 단위 구면상의 정규화된 표현을 얻는다.
- 투사 네트워크를 통해 표현을 투사하고 대조 학습을 위해 투사를 정규화한다.
- 같은 클래스로부터 양성을 모으는 두 개의 감독 대조 손실 형태를 정의하고 비교한다.
- 정규화 효과와 그래디언트 구조 때문에 외배치 감독 손실(L_out^sup)이 배치 내 버전(L_in^sup)보다 우수하다는 것을 보인다.
- 표현을 평가하기 위해 두 단계로 학습한다(대조 사전 학습 후 선형 분류기).
실험 결과
연구 질문
- RQ1감독 대조 손실이 ImageNet과 같은 대규모 데이터셋에서 크로스 엔트로피를 능가할 수 있는가?
- RQ2앵커당 다수의 양성을 포함시키는 것이 임베딩 공간에서 같은 클래스 샘플의 군집화를 개선하는가?
- RQ3다른 감독 대조 손실 형태들이 성능 및 학습 안정성에서 어떻게 비교되는가?
- RQ4전통적인 감독 손실과 비교했을 때 SupCon은 증강, 최적화 알고리즘, 데이터 양에 대해 로버스트한가?
- RQ5SupCon 표현의 다른 데이터셋과 작업으로의 전이 가능성은 무엇인가?
주요 결과
- SupCon은 ImageNet에서 ResNet-200으로 81.4% top-1 정확도를 달성하였고, 해당 아키텍처의 이전 최첨단보다 0.8pp 앞섰다.
- SupCon은 CIFAR-10, CIFAR-100, ImageNet에서 아키텍처에 관계없이 크로스 엔트로피 및 기타 벤치마크를 능가한다.
- SupCon은 ImageNet-C에서 자연적 손상에 대한 로버스트성을 향상시키고 하이퍼파라미터 및 증강에 대한 민감도가 낮음을 보여준다.
- 앵커당 다수의 양성과 다수의 음수 사용은 그래디언트 신호를 강화하여 명시적 하드 음수 채굴 없이도 효과적인 학습을 가능하게 한다.
- 메모리 크기 8192와 배치 크기 256으로 ImageNet에서 ResNet-50의 top-1 79.1%를 달성하여 메모리 없는 6144-배치 기준치를 상회했다.
- 두 단계 학습(대조 사전 학습과 선형 평가)은 경쟁력 있는 결과를 달성하며 선형 단계는 10 에폭만으로도 수행될 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.