[논문 리뷰] MoPro: Webly Supervised Learning with Momentum Prototypes
MoPro는 모멘텀 프로토타입을 사용하여 노이즈 라벨 보정 및 분포 밖 샘플(OOD) 탐지하는 웹 기반-감독 표현학습 방법으로, WebVision에서 최첨단 성능과 다운스트림 태스크에 대한 강한 전이성을 달성합니다.
We propose a webly-supervised representation learning method that does not suffer from the annotation unscalability of supervised learning, nor the computation unscalability of self-supervised learning. Most existing works on webly-supervised representation learning adopt a vanilla supervised learning method without accounting for the prevalent noise in the training data, whereas most prior methods in learning with label noise are less effective for real-world large-scale noisy data. We propose momentum prototypes (MoPro), a simple contrastive learning method that achieves online label noise correction, out-of-distribution sample removal, and representation learning. MoPro achieves state-of-the-art performance on WebVision, a weakly-labeled noisy dataset. MoPro also shows superior performance when the pretrained model is transferred to down-stream image classification and detection tasks. It outperforms the ImageNet supervised pretrained model by +10.5 on 1-shot classification on VOC, and outperforms the best self-supervised pretrained model by +17.3 when finetuned on 1\% of ImageNet labeled samples. Furthermore, MoPro is more robust to distribution shifts. Code and pretrained models are available at https://github.com/salesforce/MoPro.
연구 동기 및 목표
- 웹으로 라벨링된 데이터를 활용하여 시각 표현학습의 주석 확장성 문제를 해결한다.
- 웹 데이터의 라벨 노이즈와 OOD 샘플을 다루는 잡음에 강하고 효율적인 학습 프레임워크를 개발한다.
- 약하게 라벨된 웹 이미지를 이용한 분류 및 탐지의 다운스트림 전이 성능을 향상시킨다.
제안 방법
- 인코더로 이미지를 임베딩으로 투영하고 단위 구면으로 정규화한다.
- 모멘텀 임베딩과 모멘텀 프로토타입을 이동 평균으로 유지·업데이트한다.
- 프로토타입 대조 손실과 인스턴스 대조 손실을 공동으로 최적화하고, 의사 라벨에 대한 교차 엔트로피 손실을 추가로 사용한다.
- 분류기 예측과 프로토타입 기반 유사도를 결합하여 소프트 의사 라벨을 생성한 뒤, 노이즈 보정 및 OOD 제거 규칙으로 하드 의사 라벨로 전환한다.
- 각 의사 라벨에 할당된 임베딩 샘플의 이동 평균으로 클래스 프로토타입을 업데이트한다.
- citation-특정 손실에서 OOD 샘플을 제거하고, 인스턴스 대조 손실에는 남겨 분포 내 샘플들로부터 멀어지도록 한다.
실험 결과
연구 질문
- RQ1모멘텀 프로토타입이 추가적인 정밀 라벨 데이터 없이 온라인에서 노이즈 웹 라벨을 보정할 수 있는가?
- RQ2프로토타입 기반 보정과 OOD 필터링이 약하게 감독된 표현 학습과 다운스트림 전이 성능을 개선하는가?
- RQ3MoPro가 상위 웹-라벨 데이터 및 다양한 다운스트림 태스크에서 감독 학습 및 자가지도 학습 기반 기준선과 어떻게 비교되는가?
- RQ4MoPro가 분포 변화에 견고하고 대안들보다 더 나은 보정(calibration)을 제공하는가?
주요 결과
| 방법 | 아키텍처 | WebVision Top-1 | WebVision Top-5 | ImageNet Top-1 | ImageNet Top-5 |
|---|---|---|---|---|---|
| MentorNet | InceptionResNet-V2 | 70.8 | 88.0 | 62.5 | 83.0 |
| CurriculumNet | Inception-V2 | 72.1 | 89.1 | 64.8 | 84.9 |
| CleanNet | ResNet-50 | 70.3 | 87.8 | 63.4 | 84.6 |
| CurriculumNet | ResNet-50 | 70.7 | 88.6 | 62.7 | 83.4 |
| SOM | ResNet-50 | 72.2 | 89.5 | 65.0 | 85.1 |
| Cross-Entropy (ours) | ResNet-50 | 72.4 | 89.0 | 65.7 | 85.1 |
| MoPro (ours) | ResNet-50 | 73.9 | 90.0 | 67.8 | 87.0 |
- MoPro는 WebVision에서 업스트림 웹으로-감독 학습에 대해 최첨단 성능을 달성한다.
- MoPro는 이미지 분류 및 객체 탐지를 위한 다운스트림 표현 학습을 크게 개선하며 특정 설정에서 ImageNet-감독사전학습을 능가한다.
- 적은 샷 전이 태스크에서 MoPro는 자가지도 방법을 능가하고 데이터 및 계산 예산이 맞춰지면 감독 기반 기준선에 근접한다.
- MoPro는 분포 변화(ImageNet-R 및 ImageNet-A) 하에서 ImageNet-감독 기준선보다 더 강건하고 보정된 모델을 만들어낸다.
- 변수 실험은 프로토타입 손실, 인스턴스 손실 및 프로토타입 기반 의사 라벨이 각각 MoPro의 이득에 기여함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.