Skip to main content
QUICK REVIEW

[논문 리뷰] Symmetric Cross Entropy for Robust Learning with Noisy Labels

Yisen Wang, Xingjun Ma|arXiv (Cornell University)|2019. 08. 16.
Machine Learning and Data Classification참고 문헌 7인용 수 129
한 줄 요약

Symmetric Cross Entropy (SCE)를 Cross Entropy (CE)와 Reverse Cross Entropy (RCE)를 결합하여 잡음 있는 라벨 하에서도 DNN을 강건하게 학습시키고, 어려운 클래스의 과소학습과 노이즈에 대한 과적합을 해결한다.

ABSTRACT

Training accurate deep neural networks (DNNs) in the presence of noisy labels is an important and challenging task. Though a number of approaches have been proposed for learning with noisy labels, many open issues remain. In this paper, we show that DNN learning with Cross Entropy (CE) exhibits overfitting to noisy labels on some classes ("easy" classes), but more surprisingly, it also suffers from significant under learning on some other classes ("hard" classes). Intuitively, CE requires an extra term to facilitate learning of hard classes, and more importantly, this term should be noise tolerant, so as to avoid overfitting to noisy labels. Inspired by the symmetric KL-divergence, we propose the approach of extbf{Symmetric cross entropy Learning} (SL), boosting CE symmetrically with a noise robust counterpart Reverse Cross Entropy (RCE). Our proposed SL approach simultaneously addresses both the under learning and overfitting problem of CE in the presence of noisy labels. We provide a theoretical analysis of SL and also empirically show, on a range of benchmark and real-world datasets, that SL outperforms state-of-the-art methods. We also show that SL can be easily incorporated into existing methods in order to further enhance their performance.

연구 동기 및 목표

  • 표준 Cross Entropy (CE)가 왜 노이즈 있는 라벨에 과적합하고 어려운 클래스를 과소 학습하는지 조사한다.
  • 라벨 노이즈에 강건하면서도 어려운 클래스의 학습을 촉진하는 손실 함수를 개발한다.
  • 제안된 symmetric learning 프레임워크를 이론적으로 분석하고 경험적으로 그 효과를 검증한다.
  • 복잡한 아키텍처 변경 없이 기존 방법에 SCE를 통합하면 로버스트성을 향상시킨다는 것을 입증한다.

제안 방법

  • Symmetric Cross Entropy (SCE)를 CE와 Reverse Cross Entropy (RCE)의 합으로 정의한다.
  • SL 손실을 가중 조합으로 공식화한다: ell_sl = alpha * ell_ce + beta * ell_rce.
  • q(k|x)가 0일 때 RCE의 로그 항을 안정시키기 위해 잘린(clipped) 로그-0 대체(A)를 사용한다.
  • 대칭/균일(label) 노이즈 및 특정 비대칭/클래스 의존 노이즈 조건하에서 RCE가 노이즈에 강하다는 것을 증명한다.
  • RCE가 어려운 클래스의 학습 속도를 높이고 쉬운 클래스의 과적합을 억제하는 방식에 대한 gradient 분석을 제공한다.

실험 결과

연구 질문

  • RQ1노이즈가 있는 라벨에서 CE가 클래스별 학습 역학 측면에서 어떻게 작동하는가?
  • RQ2CE와 노이즈에 강한 손실의 대칭 결합이 어려운 클래스의 학습과 노이즈에 대한 강건성을 모두 향상시킬 수 있는가?
  • RQ3다중 클래스 설정에서 제안된 RCE 항의 이론적 보장(노이즈 허용성)은 무엇인가?
  • RQ4SL은 벤치마크에서 최첨단 노이즈 라벨 방법들과 어떻게 비교되는가?
  • RQ5SL을 기존 방법에 통합하여 성능을 더욱 향상시킬 수 있는가?

주요 결과

  • SL은 CE 및 LSR에 비해 노이즈 있는 라벨에서 어려운 클래스의 클래스별 학습을 향상시킨다.
  • RCE는 대칭/균일 노이즈 및 특정 비대칭 노이즈 조건에서 이론적으로 노이즈에 강하다.
  • SL은 MNIST, CIFAR-10, CIFAR-100에서 varying 노이즈 비율에 대해 Forward, Bootstrap, GCE, D2L, LSR, CE 등의 여러 베이스라인보다 더 높은 정확도를 달성한다.
  • A 및 alpha/beta 매개변수는 강건성과 수렴을 제어한다; SL은 RCE 항을 다른 방법에 통합하여 확장할 수 있다.
  • ABLATION 연구는 CE와 RCE를 결합하는 것이 두 항을 각각 확장하는 것보다 더 효과적임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.