Skip to main content
QUICK REVIEW

[논문 리뷰] MoPro: Webly Supervised Learning with Momentum Prototypes

Junnan Li, Caiming Xiong|arXiv (Cornell University)|2020. 09. 17.
Machine Learning and Data Classification참고 문헌 43인용 수 35
한 줄 요약

MoPro는 모멘텀 프로토타입을 사용하여 노이즈 라벨 보정 및 분포 밖 샘플(OOD) 탐지하는 웹 기반-감독 표현학습 방법으로, WebVision에서 최첨단 성능과 다운스트림 태스크에 대한 강한 전이성을 달성합니다.

ABSTRACT

We propose a webly-supervised representation learning method that does not suffer from the annotation unscalability of supervised learning, nor the computation unscalability of self-supervised learning. Most existing works on webly-supervised representation learning adopt a vanilla supervised learning method without accounting for the prevalent noise in the training data, whereas most prior methods in learning with label noise are less effective for real-world large-scale noisy data. We propose momentum prototypes (MoPro), a simple contrastive learning method that achieves online label noise correction, out-of-distribution sample removal, and representation learning. MoPro achieves state-of-the-art performance on WebVision, a weakly-labeled noisy dataset. MoPro also shows superior performance when the pretrained model is transferred to down-stream image classification and detection tasks. It outperforms the ImageNet supervised pretrained model by +10.5 on 1-shot classification on VOC, and outperforms the best self-supervised pretrained model by +17.3 when finetuned on 1\% of ImageNet labeled samples. Furthermore, MoPro is more robust to distribution shifts. Code and pretrained models are available at https://github.com/salesforce/MoPro.

연구 동기 및 목표

  • 웹으로 라벨링된 데이터를 활용하여 시각 표현학습의 주석 확장성 문제를 해결한다.
  • 웹 데이터의 라벨 노이즈와 OOD 샘플을 다루는 잡음에 강하고 효율적인 학습 프레임워크를 개발한다.
  • 약하게 라벨된 웹 이미지를 이용한 분류 및 탐지의 다운스트림 전이 성능을 향상시킨다.

제안 방법

  • 인코더로 이미지를 임베딩으로 투영하고 단위 구면으로 정규화한다.
  • 모멘텀 임베딩과 모멘텀 프로토타입을 이동 평균으로 유지·업데이트한다.
  • 프로토타입 대조 손실과 인스턴스 대조 손실을 공동으로 최적화하고, 의사 라벨에 대한 교차 엔트로피 손실을 추가로 사용한다.
  • 분류기 예측과 프로토타입 기반 유사도를 결합하여 소프트 의사 라벨을 생성한 뒤, 노이즈 보정 및 OOD 제거 규칙으로 하드 의사 라벨로 전환한다.
  • 각 의사 라벨에 할당된 임베딩 샘플의 이동 평균으로 클래스 프로토타입을 업데이트한다.
  • citation-특정 손실에서 OOD 샘플을 제거하고, 인스턴스 대조 손실에는 남겨 분포 내 샘플들로부터 멀어지도록 한다.

실험 결과

연구 질문

  • RQ1모멘텀 프로토타입이 추가적인 정밀 라벨 데이터 없이 온라인에서 노이즈 웹 라벨을 보정할 수 있는가?
  • RQ2프로토타입 기반 보정과 OOD 필터링이 약하게 감독된 표현 학습과 다운스트림 전이 성능을 개선하는가?
  • RQ3MoPro가 상위 웹-라벨 데이터 및 다양한 다운스트림 태스크에서 감독 학습 및 자가지도 학습 기반 기준선과 어떻게 비교되는가?
  • RQ4MoPro가 분포 변화에 견고하고 대안들보다 더 나은 보정(calibration)을 제공하는가?

주요 결과

방법아키텍처WebVision Top-1WebVision Top-5ImageNet Top-1ImageNet Top-5
MentorNetInceptionResNet-V270.888.062.583.0
CurriculumNetInception-V272.189.164.884.9
CleanNetResNet-5070.387.863.484.6
CurriculumNetResNet-5070.788.662.783.4
SOMResNet-5072.289.565.085.1
Cross-Entropy (ours)ResNet-5072.489.065.785.1
MoPro (ours)ResNet-5073.990.067.887.0
  • MoPro는 WebVision에서 업스트림 웹으로-감독 학습에 대해 최첨단 성능을 달성한다.
  • MoPro는 이미지 분류 및 객체 탐지를 위한 다운스트림 표현 학습을 크게 개선하며 특정 설정에서 ImageNet-감독사전학습을 능가한다.
  • 적은 샷 전이 태스크에서 MoPro는 자가지도 방법을 능가하고 데이터 및 계산 예산이 맞춰지면 감독 기반 기준선에 근접한다.
  • MoPro는 분포 변화(ImageNet-R 및 ImageNet-A) 하에서 ImageNet-감독 기준선보다 더 강건하고 보정된 모델을 만들어낸다.
  • 변수 실험은 프로토타입 손실, 인스턴스 손실 및 프로토타입 기반 의사 라벨이 각각 MoPro의 이득에 기여함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.