QUICK REVIEW

[논문 리뷰] MoPro: Webly Supervised Learning with Momentum Prototypes

Junnan Li, Caiming Xiong|arXiv (Cornell University)|2020. 09. 17.

Machine Learning and Data Classification참고 문헌 43인용 수 35

한 줄 요약

MoPro는 모멘텀 프로토타입을 사용하여 노이즈 라벨 보정 및 분포 밖 샘플(OOD) 탐지하는 웹 기반-감독 표현학습 방법으로, WebVision에서 최첨단 성능과 다운스트림 태스크에 대한 강한 전이성을 달성합니다.

ABSTRACT

We propose a webly-supervised representation learning method that does not suffer from the annotation unscalability of supervised learning, nor the computation unscalability of self-supervised learning. Most existing works on webly-supervised representation learning adopt a vanilla supervised learning method without accounting for the prevalent noise in the training data, whereas most prior methods in learning with label noise are less effective for real-world large-scale noisy data. We propose momentum prototypes (MoPro), a simple contrastive learning method that achieves online label noise correction, out-of-distribution sample removal, and representation learning. MoPro achieves state-of-the-art performance on WebVision, a weakly-labeled noisy dataset. MoPro also shows superior performance when the pretrained model is transferred to down-stream image classification and detection tasks. It outperforms the ImageNet supervised pretrained model by +10.5 on 1-shot classification on VOC, and outperforms the best self-supervised pretrained model by +17.3 when finetuned on 1\% of ImageNet labeled samples. Furthermore, MoPro is more robust to distribution shifts. Code and pretrained models are available at https://github.com/salesforce/MoPro.

연구 동기 및 목표

웹으로 라벨링된 데이터를 활용하여 시각 표현학습의 주석 확장성 문제를 해결한다.
웹 데이터의 라벨 노이즈와 OOD 샘플을 다루는 잡음에 강하고 효율적인 학습 프레임워크를 개발한다.
약하게 라벨된 웹 이미지를 이용한 분류 및 탐지의 다운스트림 전이 성능을 향상시킨다.

제안 방법

인코더로 이미지를 임베딩으로 투영하고 단위 구면으로 정규화한다.
모멘텀 임베딩과 모멘텀 프로토타입을 이동 평균으로 유지·업데이트한다.
프로토타입 대조 손실과 인스턴스 대조 손실을 공동으로 최적화하고, 의사 라벨에 대한 교차 엔트로피 손실을 추가로 사용한다.
분류기 예측과 프로토타입 기반 유사도를 결합하여 소프트 의사 라벨을 생성한 뒤, 노이즈 보정 및 OOD 제거 규칙으로 하드 의사 라벨로 전환한다.
각 의사 라벨에 할당된 임베딩 샘플의 이동 평균으로 클래스 프로토타입을 업데이트한다.
citation-특정 손실에서 OOD 샘플을 제거하고, 인스턴스 대조 손실에는 남겨 분포 내 샘플들로부터 멀어지도록 한다.

실험 결과

연구 질문

RQ1모멘텀 프로토타입이 추가적인 정밀 라벨 데이터 없이 온라인에서 노이즈 웹 라벨을 보정할 수 있는가?
RQ2프로토타입 기반 보정과 OOD 필터링이 약하게 감독된 표현 학습과 다운스트림 전이 성능을 개선하는가?
RQ3MoPro가 상위 웹-라벨 데이터 및 다양한 다운스트림 태스크에서 감독 학습 및 자가지도 학습 기반 기준선과 어떻게 비교되는가?
RQ4MoPro가 분포 변화에 견고하고 대안들보다 더 나은 보정(calibration)을 제공하는가?

주요 결과

방법	아키텍처	WebVision Top-1	WebVision Top-5	ImageNet Top-1	ImageNet Top-5
MentorNet	InceptionResNet-V2	70.8	88.0	62.5	83.0
CurriculumNet	Inception-V2	72.1	89.1	64.8	84.9
CleanNet	ResNet-50	70.3	87.8	63.4	84.6
CurriculumNet	ResNet-50	70.7	88.6	62.7	83.4
SOM	ResNet-50	72.2	89.5	65.0	85.1
Cross-Entropy (ours)	ResNet-50	72.4	89.0	65.7	85.1
MoPro (ours)	ResNet-50	73.9	90.0	67.8	87.0

MoPro는 WebVision에서 업스트림 웹으로-감독 학습에 대해 최첨단 성능을 달성한다.
MoPro는 이미지 분류 및 객체 탐지를 위한 다운스트림 표현 학습을 크게 개선하며 특정 설정에서 ImageNet-감독사전학습을 능가한다.
적은 샷 전이 태스크에서 MoPro는 자가지도 방법을 능가하고 데이터 및 계산 예산이 맞춰지면 감독 기반 기준선에 근접한다.
MoPro는 분포 변화(ImageNet-R 및 ImageNet-A) 하에서 ImageNet-감독 기준선보다 더 강건하고 보정된 모델을 만들어낸다.
변수 실험은 프로토타입 손실, 인스턴스 손실 및 프로토타입 기반 의사 라벨이 각각 MoPro의 이득에 기여함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.