QUICK REVIEW

[논문 리뷰] Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels

Zhilu Zhang, Mert R. Sabuncu|PubMed|2018. 05. 20.

Machine Learning and Data Classification참고 문헌 36인용 수 1,474

한 줄 요약

이 논문은 일반화 손실 L_q와 잘린 버전 L_q,trunc를 제안하여 교차 엔트로피와 MAE 사이를 보간하고, 잡음 있는 레이블에 대해 깊은 네트워크를 강건하게 학습시키며 CIFAR-10/100 및 Fashion-MNIST에서 닫힌 집합 오염 및 열린 집합 오염 하에서 강한 실험적 이득을 보인다.

ABSTRACT

Deep neural networks (DNNs) have achieved tremendous success in a variety of applications across many disciplines. Yet, their superior performance comes with the expensive cost of requiring correctly annotated large-scale datasets. Moreover, due to DNNs' rich capacity, errors in training labels can hamper performance. To combat this problem, mean absolute error (MAE) has recently been proposed as a noise-robust alternative to the commonly-used categorical cross entropy (CCE) loss. However, as we show in this paper, MAE can perform poorly with DNNs and challenging datasets. Here, we present a theoretically grounded set of noise-robust loss functions that can be seen as a generalization of MAE and CCE. Proposed loss functions can be readily applied with any existing DNN architecture and algorithm, while yielding good performance in a wide range of noisy label scenarios. We report results from experiments conducted with CIFAR-10, CIFAR-100 and FASHION-MNIST datasets and synthetically generated noisy labels.

연구 동기 및 목표

대규모 DNN에서 레이블이 노이즈인 상황에서 강건한 학습을 동기화한다.
CCE와 MAE를 일반화하는 이론적으로 기초가 있는 노이즈-강건 손실군을 도입한다.
강인성 및 학습 역학을 설명하기 위한 그래디언트 동작 분석을 수행한다.
표준 DNN 구조와 호환 가능한 효율적인 학습 절차를 제공한다.
다양한 노이즈 설정하에서 CIFAR-10, CIFAR-100, Fashion-MNIST에서 실험적 이득을 보여준다.

제안 방법

일반화 손실 L_q(f(x), e_j) = (1 - f_j(x)^q)/q를 정의한다. 여기서 q ∈ (0,1], 이는 교차 엔트로피(q→0)와 MAE/언링크드 손실(q=1)을 보간한다.
L_q의 그래디언트가 샘플을 f_yi(xi;θ)^q로 가중치를 부여한다는 점을 보여주며, 강건성과 학습 역학 간의 조절 가능한 균형을 제공한다.
노이즈 내성 한계를 강화하기 위해 낮은 신뢰도 예측의 손실을 임계값 k로 상한하는 잘려진 버전 L_q_trunc를 제안한다.
클래스별 손실의 합에 대한 경계치를 도출하고, 균일 및 클래스 의존적 노이즈 하에서의 강인성을 논의한다.
네트워크 매개변수와 가지치기 지시 벡터 w 사이를 교대로 최적화하는 교대 볼록 탐색 ACS(alternating convex search) 기법으로 잘려진 L_q를 최적화한다.
수렴과 노이즈 강건성의 균형을 맞추기 위해 q(실험적으로 약 0.7)와 k(실험에서 0.5로 설정)와 같은 실용적 고려사항을 논의한다.

실험 결과

연구 질문

RQ1일반화 손실 계열 L_q가 DNN의 학습 가능성을 유지하면서 노이즈 레이블에 대한 강건성을 제공할 수 있는가?
RQ2L_q와 L_q_trunc는 닫힌 집합 및 열린 집합 노이즈 하에서 CCE 및 MAE와 비교해 어떤 성능 차이를 보이는가?
RQ3임계값 k와 매개변수 q가 강건성과 최적화 역학의 균형에 어떤 역할을 하는가?
RQ4제안된 손실이 추가 장비 없이 기존 아키텍처 및 최적화 파이프라인에 통합될 수 있는가?
RQ5다양한 난이도 데이터셋(CIFAR-10/100, Fashion-MNIST)과 노이즈 유형에서 이득이 일관되게 나타나는가?

주요 결과

L_q 손실은 CIFAR-10, CIFAR-100, Fashion-MNIST에서 균일 및 클래스 의존적 노이즈 하에 CCE 및 MAE 대비 레이블 노이즈에 대한 강건성을 향상시킨다.
잘려진 L_q 손실은 모호한 샘플을 가지치기함으로써 성능을 추가로 향상시키며, 여러 설정에서 비잘려진 변형보다 이득을 준다.
경험적으로 q가 약 0.7일 때 수렴 속도와 노이즈 강건성 사이의 좋은 절충을 제공하며, MAE는 난이도 높은 데이터셋에서 성능이 좋지 않다.
열린 집합 노이즈(혼동 라벨에 외부 데이터셋 사용) 하에서 L_q와 특히 잘린 L_q가 최신 방법과 비등가하거나 우수한 정확도를 달성한다.
이 방법은 구현이 단순하고 표준 학습 파이프라인과 호환되며, 깨끗한 데이터 감독이나 광범위한 알고리즘 변화가 필요 없다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.