QUICK REVIEW

[논문 리뷰] Unsupervised Label Noise Modeling and Loss Correction

Eric Arazo, Diego Ortego|arXiv (Cornell University)|2019. 04. 25.

Machine Learning and Data Classification인용 수 198

한 줄 요약

이 논문은 per-sample 학습 손실에 두 성분 베타 혼합(beta mixture)을 사용하여 레이블 노이즈를 모델링하고, 클린 샘플과 노이즈 샘플을 구분하며, 필요에 따라 mixup과 결합된 동적 부트스트래핑 손실을 적용하여 클린 데이터 없이도 강건하게 학습한다.

ABSTRACT

Despite being robust to small amounts of label noise, convolutional neural networks trained with stochastic gradient methods have been shown to easily fit random labels. When there are a mixture of correct and mislabelled targets, networks tend to fit the former before the latter. This suggests using a suitable two-component mixture model as an unsupervised generative model of sample loss values during training to allow online estimation of the probability that a sample is mislabelled. Specifically, we propose a beta mixture to estimate this probability and correct the loss by relying on the network prediction (the so-called bootstrapping loss). We further adapt mixup augmentation to drive our approach a step further. Experiments on CIFAR-10/100 and TinyImageNet demonstrate a robustness to label noise that substantially outperforms recent state-of-the-art. Source code is available at https://git.io/fjsvE

연구 동기 및 목표

정답 데이터에 접근할 수 있다고 가정하지 않고 학습 데이터에 레이블 노이즈가 포함된 상황에서도 강건한 학습을 촉진한다.
비지도 손실 기반의 베타 혼합 모델을 사용하여 클린/노이즈 샘플의 구분 여부를 모델링한다.
노이즈 모델에 의해 알려진 동적 개별 샘플 손실 보정(부트스트래핑)을 개발한다.
제안된 손실 보정과 mixup 데이터 증강을 통합하여 강건성을 향상시킨다.
다양한 수준의 노이즈에서 CIFAR-10/100 및 TinyImageNet에서 최첨단 성능을 입증한다.

제안 방법

훈련 손실에 두 성분 베타 혼합 모델(BMM)을 맞춰 클린/노이즈 샘플의 가능도(likelihoods)를 모델링한다.
EM을 사용하여 베타 매개변수와 클린/노이즈 구성요소에 대한 후방 확률 p(k|loss)를 추정한다.
개별 샘플 가중치 w_i = p(k=1|loss_i)로 구성된 동적 부트스트래핑 손실을 도출하여 진짜 레이블과 모델 예측 간의 기여도를 조정한다.
동적 부트스트래핑과 mixup 데이터 증강을 결합하여 샘플과 레이블 모두를 개별 샘플 노이즈 후방 확률로 가중하고 증강하는 혼합 손실을 만든다.
훈련 중 단일 클래스으로 수렴하는 것을 방지하기 위한 정규화 항을 도입한다.
개별 샘플 노이즈 추정에 따라 혼합 전략을 조정하는 동적 mixup 변형을 제공하여 극심한 레이블 노이즈 하에서 수렴을 개선한다.

실험 결과

연구 질문

RQ1정답 데이터를 가정하지 않고도 unsupervised, per-sample loss–based 모델이 클린 라벨과 노이즈 라벨을 구분할 수 있는가?
RQ2샘플 손실에 대한 베타 혼합 모델이 학습 중 손실을 보정하기 위한 신뢰할 수 있는 후방 확률을 제공하는가?
RQ3동적, 샘플별 부트스트래핑이 정적 부트스트래핑이나 표준 교차 엔트로피에 비해 레이블 노이즈에 대한 강건성을 개선하는가?
RQ4제안된 손실 보정과 mixup을 결합하면 고노이즈 하에서 mixup 단독보다 더 강한 강건성을 얻을 수 있는가?

주요 결과

개별 샘플 손실에 대한 베타 혼합 모델링은 클린 샘플과 노이즈 샘플의 효과적인 구분을 제공하며, 샘플별 손실 보정을 가능하게 한다.
동적 부트스트래핑(샘플별 가중치)은 정적 부트스트래핑보다 일관되게 우수하며, 특히 높은 노이즈 수준에서 더 우수하다(예: 80% 및 90%).
하드 부트스트래핑과 동적 가중치를 믹스업과 결합한(M-DYR-H)은 CIFAR-10에서 고노이즈에서 큰 정확도 향상을 달성한다(예: 80% 노이즈에서 최저 86.8%; 90%에서 40.8%). CIFAR-100에서(80% 노이즈에서 최저 12.5%; 90%에서 표의 -)
동적 부트스트래핑과 mixup의 결합(M-DYR-H/SH)은 단독 mixup에 비해 강건성을 크게 향상시키며 CIFAR-10/100의 고노이즈에서 새로운 기준을 제시한다.
이 방법은 CIFAR를 넘어 TinyImageNet으로 일반화되며(MD-DYR-SH가 일관되게 baseline mixup을 능가한다).
Clothing1M에서 사전 학습된 네트워크를 미세조정하는 것은 비지도 노이즈 모델링을 제한하며, 데이터셋 특성에 따른 일부 도전 과제를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.