[논문 리뷰] Contrastive Learning with Stronger Augmentations
CLSA 도입은 분포적 발산 프레임워크로, 약하게 증강된 뷰의 분포를 통해 강하게 증강된 쿼리의 검색을 감독하고 대조 학습 성능을 향상시킴으로써 더 강력한 증강을 활용합니다.
Representation learning has significantly been developed with the advance of contrastive learning methods. Most of those methods have benefited from various data augmentations that are carefully designated to maintain their identities so that the images transformed from the same instance can still be retrieved. However, those carefully designed transformations limited us to further explore the novel patterns exposed by other transformations. Meanwhile, as found in our experiments, the strong augmentations distorted the images' structures, resulting in difficult retrieval. Thus, we propose a general framework called Contrastive Learning with Stronger Augmentations~(CLSA) to complement current contrastive learning approaches. Here, the distribution divergence between the weakly and strongly augmented images over the representation bank is adopted to supervise the retrieval of strongly augmented queries from a pool of instances. Experiments on the ImageNet dataset and downstream datasets showed the information from the strongly augmented images can significantly boost the performance. For example, CLSA achieves top-1 accuracy of 76.2% on ImageNet with a standard ResNet-50 architecture with a single-layer classifier fine-tuned, which is almost the same level as 76.5% of supervised results. The code and pre-trained models are available in https://github.com/maple-research-lab/CLSA.
연구 동기 및 목표
- 대조 학습에서 신중하게 설계된 변환을 넘어 더 강력하고 무작위의 증강을 탐색하도록 동기를 부여한다.
- 정확한 임베딩 동등성을 강요하지 않고 강하게 증강된 쿼리의 검색을 감독하기 위한 분포적 발산 최소화(DDM) 손실을 제안한다.
- DDM을 기존 대조 손실과 결합하면 약하게/강하게 증강된 뷰에 대한 표현이 향상됨을 보여준다.
- CLSA가 다양한 대조 프레임워크(MoCo, SimCLR, BYOL 등)와의 호환성과 다운스트림 작업에 대한 영향력을 보여준다.
제안 방법
- 14가지 증강 유형의 임의 조합으로 매우 강한 증강 S를 도입한다.
- 약한 증강 쌍(T',T)과 강한 증강 S를 정의하여 각각 약한 뷰 z', 강한 뷰 z, z''를 얻는다.
- 메모리-뱅크 네거티브에 대한 조건부 분포 p(z_j|z')를 약한 뷰와 강한 뷰 모두에 대해 계산한다(Eqs. 3 및 5).
- 수식 6에 있는 p(.|z')와 p(.|z'') 간의 발산을 최소화하는 분포적 발산 손실 L_D를 형식화한다.
- 표준 대조 손실 L_C에 L_D를 결합하여 L = L_C + beta * L_D(실험에서 beta = 1)로 인코더를 학습한다.
- L_D가 기본 손실에 의존하지 않고 어떤 동시 대조 손실 기반 방법과도 통합될 수 있음을 보여준다.
- 강한 증강에 대한 구현 세부 사항과 분포 감독의 필요성을 뒷받침하는 소거 연구(ablation studies)를 제공한다.

실험 결과
연구 질문
- RQ1더 강하고 무작위로 결합된 증강이 성능이 붕괴되지 않으면서 자기지도 표현을 향상시킬 수 있는가?
- RQ2약한 뷰와 강한 뷰 사이의 분포 감독 신호가 강한 증강을 단순한 일대일 매칭보다 더 잘 활용하는가?
- RQ3CLSA가 기존 대조 손실과 어떻게 상호 작용하며 이미지넷 선형 평가를 넘어 다운스트림 작업에 어떤 영향을 미치는가?
- RQ4성능에 대한 분포 손실 및 증강 유형 선택의 소거 효과는 어떠한가?
주요 결과
| Method | Top-1 |
|---|---|
| InstDisc | 54.0 |
| LocalAgg | 58.8 |
| MoCo | 60.8 |
| SimCLR | 61.9 |
| CPC v2 | 63.8 |
| PCL | 65.9 |
| MoCo v2 | 67.5 |
| InfoMin Aug | 70.1 |
| SWAV (Multi-Crop) | 72.7 |
| CLSA | 69.4 |
| CLSA* (Multi-Crop) | 73.3 |
| Supervised | 76.5 |
- CLSA는 ResNet-50으로 ImageNet에서 선전한 결과를 달성하며, 선형 평가에서 top-1 76.2%로 감독된 76.5%에 근접하다.
- VOC07에서 CLSA 사전 학습은 선형 분류기로 93.6% top-1을 달성하여 이전 기록 88.9%를 넘었다.
- COCO 객체 탐지에서 CLSA는 작은 물체의 AP_S를 24.4%로 올려 20.8%에서 향상시켰다.
- 소거 연구에서 더 강한 증강의 순진한 사용이 성능을 저하시키는 것으로 나타나 분포 지도가 필요함을 검증한다.
- CLSA는 분포 손실을 도입함으로써 기존 대조 방법(MoCo, SimCLR, BYOL)의 성능을 크게 향상시킬 수 있다.
- 이 방법은 약하게 증강된 것뿐 아니라 강하게 증강된 이미지의 표현도 개선한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.