[논문 리뷰] DivideMix: Learning with Noisy Labels as Semi-supervised Learning
DivideMix는 노이즈 라벨 학습을 반지도 학습 문제로 간주하여 per-sample 손실을 Gaussian Mixture Model로 모델링하고, two diverged 네트워크 간의 레이블 정제 및 공동 추측을 통해 반지도 학습을 강화합니다.
Deep neural networks are known to be annotation-hungry. Numerous efforts have been devoted to reducing the annotation cost when learning with deep networks. Two prominent directions include learning with noisy labels and semi-supervised learning by exploiting unlabeled data. In this work, we propose DivideMix, a novel framework for learning with noisy labels by leveraging semi-supervised learning techniques. In particular, DivideMix models the per-sample loss distribution with a mixture model to dynamically divide the training data into a labeled set with clean samples and an unlabeled set with noisy samples, and trains the model on both the labeled and unlabeled data in a semi-supervised manner. To avoid confirmation bias, we simultaneously train two diverged networks where each network uses the dataset division from the other network. During the semi-supervised training phase, we improve the MixMatch strategy by performing label co-refinement and label co-guessing on labeled and unlabeled samples, respectively. Experiments on multiple benchmark datasets demonstrate substantial improvements over state-of-the-art methods. Code is available at https://github.com/LiJunnan1992/DivideMix .
연구 동기 및 목표
- 주석 비용을 줄이면서 노이즈 라벨이 있는 심층 네트워크 학습의 도전을 해결한다.
- 비표시/노이즈 데이터를 반지도 학습을 통해 활용하여 일반화를 향상시킨다.
- 학습 중 깨끗한 샘플과 노이즈 샘플을 구분하는 견고한 메커니즘을 개발한다.
- 서로를 가르치는 두 개의 다르게 분기된 네트워크를 사용하여 확인편향을 완화한다.
- 노이즈 라벨에 맞춘 레이블 정제와 공동 추측을 통해 SSL을 개선한다.
제안 방법
- 각 샘플에 대해 Gaussian Mixture Model로 손실을 모델링하여 각 샘플의 깨끗한/노이즈 확률을 추정한다.
- co-divide를 사용: 두 네트워크가 번갈아 데이터를 다른 네트워크를 위해 labeled (clean) 및 unlabeled (noisy) 세트로 분할한다.
- 비대칭 노이즈에서 학습을 안정시키기 위한 신뢰도 페널티로 워밍업한다.
- 예측 분포를 사용하여 레이블 정제를 수행하는 레이블 공동 정제와 unlabeled 데이터에 대한 앙상블 예측인 co-guessing을 포함한 향상된 MixMatch SSL 프레임워크를 적용한다.
- 레이블된 샘플과 unlabeled 샘플의 데이터 증강 및 MixUp 기반 혼합을 수행하고, 클래스 간 균일 사전분포를 강제하는 정규화 항을 둔다.
- 합산 손실을 사용하여 SGD로 네트워크를 업데이트한다: 라벨이 있는 데이터에 대한 감독 손실, 라벨이 없는 데이터에 대한 비지도 손실, 그리고 정규화 항.
실험 결과
연구 질문
- RQ1노이즈 라벨 데이터가 semi-supervised 학습으로 재정의되어 효과적으로 활용될 수 있는가?
- RQ2두 개의 분기된 네트워크를 공동 학습하면 확인 편향을 줄이고 라벨 노이즈에 대한 강인성을 향상시키는가?
- RQ3개별 샘플 손실 모델링과 MixMatch를 비대칭 및 고노이즈 환경에 어떻게 적응시킬 수 있는가?
- RQ4노이즈 라벨에서의 레이블 정제와 co-guessing이 반지도 학습 성능에 미치는 영향은 무엇인가?
- RQ5DivideMix가 벤치마크에서 기존 LNL 및 SSL 방법을 어느 정도 능가하는가?
주요 결과
- DivideMix는 대칭 및 비대칭 노이즈를 가진 CIFAR-10/100에서 최첨단 방법 대비 상당한 향상을 달성한다.
- CIFAR-10에서 40% 비대칭 노이즈에서 DivideMix는 경쟁 방법들보다 우수한 최상위 성능을 달성한다.
- DivideMix는 Clothing1M 및 WebVision 벤치마크에서 일관되게 베이스라인보다 우수한 성능을 보인다.
- 분해 연구에서 co-divide, 레이블 정제 및 co-guessing이 성능 향상에 기여하며 두 개의 분기된 네트워크가 확인 편향을 피하는 데 도움이 된다고 나타난다.
- 추론 시 두 네트워크의 앙상블 예측이 단일 모델보다 더 나은 결과를 낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.