Skip to main content
QUICK REVIEW

[논문 리뷰] Identifying Mislabeled Data using the Area Under the Margin Ranking

Geoff Pleiss, Tianyi Zhang|arXiv (Cornell University)|2020. 01. 28.
Machine Learning and Data Classification참고 문헌 71인용 수 45
한 줄 요약

본 논문은 Area Under the Margin (AUM)을 도입하여 샘플별 학습 동역학을 추적해 잘못 라벨링된 데이터를 식별하고, 임계 샘플을 추가 클래스와 함께 사용해 잘못 라벨링된 데이터와 올바르게 라벨링된 데이터를 구분하며, 식별된 잘못 라벨링 샘플을 제거했을 때 테스트 오차를 개선합니다. WebVision, CIFAR/Tiny ImageNet 및 실제 약하게 라벨링된 데이터셋에서 이득을 보임을 보입니다.

ABSTRACT

Not all data in a typical training set help with generalization; some samples can be overly ambiguous or outrightly mislabeled. This paper introduces a new method to identify such samples and mitigate their impact when training neural networks. At the heart of our algorithm is the Area Under the Margin (AUM) statistic, which exploits differences in the training dynamics of clean and mislabeled samples. A simple procedure - adding an extra class populated with purposefully mislabeled threshold samples - learns a AUM upper bound that isolates mislabeled data. This approach consistently improves upon prior work on synthetic and real-world datasets. On the WebVision50 classification task our method removes 17% of training data, yielding a 1.6% (absolute) improvement in test error. On CIFAR100 removing 13% of the data leads to a 1.2% drop in error.

연구 동기 및 목표

  • 깊은 신경망에서 일반화에 대한 잘못 라벨링된 데이터의 영향을 동기부여합니다.
  • 훈련 동역학에서 잘못 라벨링된 샘플을 식별하기 위한 간단하고 플러그-앤-플레이 방식의 방법을 제안합니다.
  • 개별 샘플 지표로서 AUM(Area Under the Margin)을 도입합니다.
  • 신뢰할 수 있는 검증 데이터 없이도 임계 샘플을 추가 클래스를 통해 릭세한 데이터 분리의 강건성을 확보합니다.
  • 합성 및 실제 벤치마크 전반에서 데이터 세트를 정리하여 개선을 시연합니다.]
  • method_korean_obfuscated_placeholder_enable

제안 방법

  • 한 샘플의 로그잇 간의 마진 M^(t)(x,y)을 할당된 로그잇과 다른 가장 큰 로그잇 사이에서 정의합니다.
  • AUM(x,y)을 훈련 에포크들에 걸쳐 마진의 평균으로 계산합니다: AUM = (1/T) ∑_t M^(t)(x,y).
  • 추가 가상의 클래스(c+1)를 도입하고 임계 샘플의 일부를 이 클래스로 할당하여 잘못 라벨링 데이터에 대한 참조 AUM 분포를 만듭니다.
  • 원래 데이터에 임계 샘플을 더하고 AUM 임계값에 따라 원래 데이터를 점진적으로 제거한 상태와, 임계 샘플을 포함한 상태를 두 번째 네트워크로 학습합니다.
  • 임계 샘플의 99번째 분위 수(AUM의 99백분위)를 임계값 α로 삼아 잘못 라벨링 데이터를 식별합니다: AUM이 α를 초과하는 데이터를 보존하고, AUM이 α 이하인 데이터는 제거합니다.
  • 다른 임계 샘플 세트로 반복하여 남아 있는 잘못 라벨링 데이터를 식별합니다.
  • 합성 노이즈 데이터에서의 정밀도/재현율로 식별 성능을 프로파일하고, 표시된 샘플 제거 후 분류기를 학습하여 검증합니다.]
  • research_methods_obfuscated_placeholder

실험 결과

연구 질문

  • RQ1AUM이 잘못 라벨링된 샘플과 올바르게 라벨링된 샘플을 학습 동역학에 근거하여 구분할 수 있을까?
  • RQ2추가 클래스가 있는 임계 샘플을 더하는 것이 신뢰할 수 있는 검증 데이터 없이도 데이터세트에 의존적인 임계값을 제공하는 강건한 방법이 될까?
  • RQ3AUM으로 식별된 샘플을 제거한 후 학습된 분류기가 합성 및 실제 노이즈 데이터셋에서 테스트 정확도를 향상시키나?
  • RQ4방법이 아키텍처, 데이터 증강, 다양한 노이즈 레짐에 대해 강건한가?

주요 결과

  • AUM은 잘못 라벨링된 샘플과 올바르게 라벨링된 샘플 간의 고유한 학습 동역학을 포착하여 데이터 품질의 신뢰할 수 있는 순위를 가능하게 한다.
  • 추가 클래스와의 임계 샘플 구성은 검증 없이도 AUM 임계값을 설정하는 실용적인 방법을 제공한다.
  • 합성 및 실제 데이터세트 전반에서, AUM으로 식별된 잘못 라벨링 샘플을 제거하면 테스트 오차가 개선되며 때로는 오라클 정리 성능에 근접하거나 이를 상회한다.
  • 이 방법은 잘못 라벨링 데이터 식별에서 높은 정밀도와 재현율을 제공하며, 도전적인 데이터세트에서 여러 선행 접근법보다 우수한 성능을 보인다.
  • 실제 세계의 약하게 라벨링된 데이터세트(WebVision50, Clothing100K, ImageNet 규모)에서 AUM 기반 정리가 에러를 감소시키고 제거하는 데이터의 비율을 제어 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.