QUICK REVIEW

[논문 리뷰] IMAE for Noise-Robust Learning: Mean Absolute Error Does Not Treat Examples Equally and Gradient Magnitude's Variance Matters

Xinshao Wang, Hua Yang|arXiv (Cornell University)|2019. 03. 28.

Machine Learning and Data Classification참고 문헌 54인용 수 44

한 줄 요약

이 논문은 MAE의 강인성 및 과소적합을 분석한 다음, MAE의 기울기 크기를 지수 가중치로 조정하여 기울기 분산을 조정하는 IMAE를 도입하여 학습 성능을 향상시키면서 노이즈에 대한 강인성을 보존합니다.

ABSTRACT

In this work, we study robust deep learning against abnormal training data from the perspective of example weighting built in empirical loss functions, i.e., gradient magnitude with respect to logits, an angle that is not thoroughly studied so far. Consequently, we have two key findings: (1) Mean Absolute Error (MAE) Does Not Treat Examples Equally. We present new observations and insightful analysis about MAE, which is theoretically proved to be noise-robust. First, we reveal its underfitting problem in practice. Second, we analyse that MAE's noise-robustness is from emphasising on uncertain examples instead of treating training samples equally, as claimed in prior work. (2) The Variance of Gradient Magnitude Matters. We propose an effective and simple solution to enhance MAE's fitting ability while preserving its noise-robustness. Without changing MAE's overall weighting scheme, i.e., what examples get higher weights, we simply change its weighting variance non-linearly so that the impact ratio between two examples are adjusted. Our solution is termed Improved MAE (IMAE). We prove IMAE's effectiveness using extensive experiments: image classification under clean labels, synthetic label noise, and real-world unknown noise.

연구 동기 및 목표

abnormal training data 하에서 강인한 딥러닝을 동기 부여하고 MAE와 CCE가 그래디언트 크기를 통해 예제를 가중하는 방식을 검토합니다.
MAE가 낮은 그래디언트-크기 분산으로 인해 과소적합하고, 그래디언트 분산이 의미 있는 패턴 학습에 중요한 역할을 한다는 점을 밝힙니다.
MAE의 전체 가중 체계를 바꾸지 않으면서 그래디언트 크기 분산을 비선형적으로 조정하기 위한 Improved MAE(IMAE)를 제안합니다.
깨끗한 라벨, 합성 라벨 노이즈, 실제 알려지지 않은 노이즈에서 IMAE의 효과를 입증합니다.

제안 방법

CCE, MAE, IMAE에서 예제 가중치를 해석하기 위해 로짓에 대한 그래디언트를 분석합니다.
CCE와 MAE에서 샘플당 그래디언트 크기에 대한 닫힌 형식을 도출합니다.
예측된 실제 클래스의 확률 p_y를 이용해 w_IMAE(x) = exp(T p_y (1-p_y))의 지수 가중치를 곱해 MAE의 로짓에 대한 그래디언트를 곱하여 IMAE를 도입합니다.
역전파된 IMAE의 그래디언트가 MAE의 그래디언트에 비해 w_IMAE/w_MAE의 스케일링으로 증가하되 MAE의 전체 가중 체계는 보존됩니다.
T가 그래디언트-크기 분산과 샘플 간 영향비에 미치는 영향력을 논의합니다.
깨끗한 라벨 및 노이즈가 있는 시나리오에서 CIFAR-10/100 및 Clothing1M에 대한 실험적 평가를 제공합니다.

실험 결과

연구 질문

RQ1MAE가 모든 학습 예제를 동일하게 처리하는가, 그리고 그것의 노이즈 강인성이 과소적합과 동반되는가?
RQ2손실 함수의 그래디언트-크기 분산이 의미 있는 패턴 학습에 어떤 영향을 미치는가?
RQ3MAE의 적합 능력을 노이즈 강인성을 해치지 않으면서 개선할 수 있는가?
RQ4제안된 IMAE가 합성 및 실제 노이즈 라벨에서 다양한 작업에 걸쳐 강인성을 향상시키는가?

주요 결과

MAE는 CCE보다 노이즈에 더 강인하지만 깨끗한 데이터 포인트에서 과소적합하는 경향이 있어 불확실한(중간 확률) 예제에 집중합니다.
MAE의 예제 간 그래디언트 크기의 분산이 작아 샘플 간 영향 비가 낮고 의미 있는 패턴 학습이 약해집니다.
IMAE는 샘플 예측 확률의 지수 함수로 MAE의 가중치를 비선형적으로 변환하여 그래디언트-크기 분산을 증가시키면서 MAE의 전체 가중 체계를 보존합니다.
조정된 T를 사용하면 IMAE는 CIFAR-100 및 Clothing1M 데이터셋에서 합성 대칭/비대칭 노이즈 및 현실적인 알려지지 않은 노이즈 하에서 최첨단 성능을 달성합니다.
CIFAR-10에서 IMAE는 노이즈 샘플에 대한 의존성을 줄이면서도 높은 일반화와 균형 잡힌 성능을 보여 경쟁적이거나 우수한 하이브리드 정확도를 보입니다.
IMA E의 복잡도는 여전히 단순하며 MAE 그래디언트를 스케일링하는 인자 w_IMAE만 필요합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.