QUICK REVIEW

[논문 리뷰] L_DMI: An Information-theoretic Noise-robust Loss Function

Yilun Xu, Peng Cao|arXiv (Cornell University)|2019. 09. 08.

Machine Learning and Data Classification참고 문헌 43인용 수 34

한 줄 요약

L_DMI를 도입하는 것이며, Determinant based Mutual Information (DMI)에 기반한 손실로, 인스턴스 독립적인 라벨 노이즈에 대해 이론적으로 강건하고 어떤 분류기에도 쉽게 적용할 수 있으며; 여러 데이터셋과 노이즈 패턴에서 우수한 성능을 보여준다.

ABSTRACT

Accurately annotating large scale dataset is notoriously expensive both in time and in money. Although acquiring low-quality-annotated dataset can be much cheaper, it often badly damages the performance of trained models when using such dataset without particular treatment. Various methods have been proposed for learning with noisy labels. However, most methods only handle limited kinds of noise patterns, require auxiliary information or steps (e.g. , knowing or estimating the noise transition matrix), or lack theoretical justification. In this paper, we propose a novel information-theoretic loss function, $\mathcal{L}_{DMI}$, for training deep neural networks robust to label noise. The core of $\mathcal{L}_{DMI}$ is a generalized version of mutual information, termed Determinant based Mutual Information (DMI), which is not only information-monotone but also relatively invariant. \emph{To the best of our knowledge, $\mathcal{L}_{DMI}$ is the first loss function that is provably robust to instance-independent label noise, regardless of noise pattern, and it can be applied to any existing classification neural networks straightforwardly without any auxiliary information}. In addition to theoretical justification, we also empirically show that using $\mathcal{L}_{DMI}$ outperforms all other counterparts in the classification task on both image dataset and natural language dataset include Fashion-MNIST, CIFAR-10, Dogs vs. Cats, MR with a variety of synthesized noise patterns and noise amounts, as well as a real-world dataset Clothing1M. Codes are available at https://github.com/Newbeeer/L_DMI .

연구 동기 및 목표

깨끗한 데이터나 노이즈 전이 정보에 의존하지 않고 대규모의 노이즈 라벨링에서 강건한 학습을 유도한다.
다양한 노이즈 패턴에 대한 강건성을 지원하는 일반화된 상호정보(MI) 척도(DMI)를 정의하고 정당화한다.
모델 출력과 노이즈 라벨 사이의 음의 DMI를 최소화하는 실용적 손실 함수 L_DMI를 제안한다.
노이즈 하에서 L_DMI가 인스턴스 독립적 라벨 노이즈에 대해 강건하며 일정 상수 시프트까지 깨끗한 데이터로 학습하는 것과 동등하다는 이론적 보장을 제시한다.
다양한 노이즈 패턴을 갖는 이미지 및 언어 데이터셋에서 L_DMI의 실증적 이점을 보여준다.

제안 방법

DMI를 분류기 출력과 라벨 간의 결합 분포 행렬의 행렬식으로 정의한다.
L_DMI를 DMI의 음로그로 정식화한다: L_DMI = -log(DMI(h(X), tilde{Y})).
배치 통계를 통해 Q_{h(X), tilde{Y}}를 O 및 L 행렬을 이용해 추정하고, U = (1/N) O L로 정의한다.
노이즈 전이 정보가 필요 없이 DMI의 비교적 불변성 특성을 활용하여 노이즈에 대한 강건성을 보장한다.
노이즈 하에서 L_DMI의 손실 시프트가 상수와 같고 분류기의 품질 순서를 보존한다는 이론적 결과를 제시한다.

실험 결과

연구 질문

RQ1노이즈 전이 행렬에 접근하지 않고도 L_DMI가 인스턴스 독립 라벨 노이즈에 대한 강건성을 이론적으로 보장할 수 있는가?
RQ2다양한 노이즈 패턴과 노이즈 수준에도 불구하고 깨끗한 라벨에서의 성능 최적화와 L_DMI 최적화가 일치하는가?
RQ3보조 데이터 없이도 L_DMI가 다양한 아키텍처와 모달리티(이미지 및 텍스트)에 적용 가능한가?
RQ4대각 우세, 대각 비우세 및 현실 세계의 노이즈 라벨링 하에서 L_DMI가 기존의 강건 손실과 어떻게 비교되는가?
RQ5합성 및 실제 세계의 노이즈 라벨에서 표준 벤치마크에 대한 L_DMI의 실증적 이득은 무엇인가?

주요 결과

명시된 가정 하에 L_DMI는 인스턴스 독립 라벨 노이즈에 대해 이론적으로 강건하다.
노이즈 데이터에서 L_DMI로 학습하는 것은 손실의 상수 시프트를 제외하고 깨끗한 데이터로 학습하는 것과 동일하다.
실험적으로 L_DMI는 Fashion-MNIST, CIFAR-10, Dogs vs. Cats, MR, 및 Clothing1M에서 다양한 노이즈 패턴과 양에 대해 CE, FW, GCE 및 LCCN을 능가한다.
L_DMI는 합성 노이즈 패턴(대각 비우세 포함)과 실제 노이즈 데이터 세트 모두에서 유리함을 유지한다.
Clothing1M에서 L_DMI가 비교 방법들 중 최고 보고 정확도를 달성한다.
이 방법은 아키텍처 및 데이터 도메인에 구애받지 않는 것으로, ResNet-50, ResNet-34, VGG-16, 및 WordCNN으로 입증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.