QUICK REVIEW

[논문 리뷰] Learning with Confident Examples: Rank Pruning for Robust Classification with Noisy Labels

Curtis G. Northcutt, Tailin Wu|arXiv (Cornell University)|2017. 05. 04.

Machine Learning and Data Classification참고 문헌 19인용 수 57

한 줄 요약

Rank Pruning은 노이즈가 있는 라벨을 가진 이진분류에 대해 시간을 절약하는 방법으로, 비대칭 노이즈율을 jointly 추정하고 잘못 라벨링된 예제를 제거하여 깨끗한 데이터로 학습할 때와 동등한 위험을 달성합니다.

ABSTRACT

Noisy PN learning is the problem of binary classification when training examples may be mislabeled (flipped) uniformly with noise rate rho1 for positive examples and rho0 for negative examples. We propose Rank Pruning (RP) to solve noisy PN learning and the open problem of estimating the noise rates, i.e. the fraction of wrong positive and negative labels. Unlike prior solutions, RP is time-efficient and general, requiring O(T) for any unrestricted choice of probabilistic classifier with T fitting time. We prove RP has consistent noise estimation and equivalent expected risk as learning with uncorrupted labels in ideal conditions, and derive closed-form solutions when conditions are non-ideal. RP achieves state-of-the-art noise estimation and F1, error, and AUC-PR for both MNIST and CIFAR datasets, regardless of the amount of noise and performs similarly impressively when a large portion of training examples are noise drawn from a third distribution. To highlight, RP with a CNN classifier can predict if an MNIST digit is a "one"or "not" with only 0.25% error, and 0.46 error across all digits, even when 50% of positive examples are mislabeled and 50% of observed positive labels are mislabeled negative examples.

연구 동기 및 목표

틸다- PN 학습 문제(비대칭 라벨 노이즈를 가진 이진 분류)를 동기화하고 형식화하며, 노이즈 비율을 추정해야 할 필요성을 제시한다.
Rank Pruning을 두 단계 솔루션으로 도입: (i) 확신 있는 예제에서 노이즈 비율 추정, (ii) 잘못 라벨링된 인스턴스를 가지치고 확신하는 부분집합에서 학습.
범위가 완전하지 않은 조건에서 일관성을 입증하고 해석 가능한 닫힌 형태 결과를 도출하여 특정 가정 하에서 깨끗한 라벨 학습과 동일한 기대 위험을 보임(정리 5).

제안 방법

확신하는 예제 수를 정의하고 예측 확률 g(x)를 기반으로 hat{rho}_1^{conf}와 hat{rho}_0^{conf} 추정치를 도출한다.
손상된 집합 내에서 올바르게 라벨링된 예제와 잘못 라벨링된 예제를 구분하기 위해 임계값 기반 분할 LB_{y=1} 및 UB_{y=0}를 계산한다.
BFPRT를 사용하여 hat{pi}_1|tilde{P}| 및 hat{pi}_0|tilde{N}| 예제를 O(n) 시간에 가지치며 혼동된 학습 세트를 형성한다.
가지치기된 데이터의 손실 함수를 재가중하여 양성/음성 균형을 회복하고 최종 분류기를 적합시킨다.
범위 분리성이 성립하면 Rank Pruning이 깨끗하지 않은 라벨이 아닌 경우의 학습과 동일한 기대 위험을 달성한다(정리 5).
알고리즘은 기본 분류기에 대해 O(T) 시간, 가지치기에 O(n) 시간이 소요되어 일반적인 분류기에서 총 O(T) 시간을 보장한다.

실험 결과

연구 질문

RQ1Rank Pruning이 손상된 데이터로부터 비대칭 노이즈 비율 rho1과 rho0를 정확하게 추정할 수 있는가?
RQ2확신하는 예제를 가지치기하면 이상적인 조건하에서 깨끗한 라벨로 학습하는 것과 동일한 기대 위험을 가지는 분류기를 얻을 수 있는가?
RQ3비이상적 조건(G 불완전, P와 N의 중첩, 제3 분포 노이즈 추가)에서 Rank Pruning은 표준 데이터셋에서 어떻게 수행되는가?
RQ4Rank Pruning이 대규모 데이터셋과 복잡한 모델에 확장될 만큼 시간 효율적인가?

주요 결과

Rank Pruning은 다양한 노이즈 수준과 노이즈 분포에서 MNIST 및 CIFAR에 대해 강건한 노이즈 추정과 최첨단 F1, 오차 및 AUC-PR을 달성한다.
CNN을 사용할 때, Rank Pruning은 MNIST에서 one-vs-not-one에 대해 0.25% 오차, 모든 숫자에 대해 0.46% 오차를 달성하며, 양성 및 관찰 라벨에서 최대 50%의 잘못된 라벨링이 있어도 성능이 유지된다.
이상적 조건에서 hat{rho}_1^{conf} = rho1 및 hat{rho}_0^{conf} = rho0 (일관성).
비이상적 조건에서 hat{rho}_1^{conf} 및 hat{rho}_0^{conf}는 상한으로 남아 있으며 특정 임계값이 충족될 때 추정 오차에 강인하다(정리 4).
범위 분리성이 성립하고 노이즈 비율이 정확하게 추정되면 Rank Pruning은 깨끗한 라벨로 학습하는 것과 동일한 기대 위험을 산출한다(정리 5).
알고리즘은 기본 분류기에 대해 O(T) 시간, 가지치기 단계로 O(n) 시간을 소요하여 대규모 문제에 실용적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.