Skip to main content
QUICK REVIEW

[논문 리뷰] Part-dependent Label Noise: Towards Instance-dependent Label Noise

Xiaobo Xia, Tongliang Liu|arXiv (Cornell University)|2020. 06. 14.
Music and Audio Processing인용 수 150
한 줄 요약

파트 의존 라벨 노이즈(PDN)를 제안하여 파트별 전이 행렬을 학습하고 이를 결합해 인스턴스 의존 노이즈를 형성합니다. 합성 및 실제 데이터 세트에서 무거운 인스턴스 의존 노이즈에 대한 견고성 향상을 보여줍니다.

ABSTRACT

Learning with the extit{instance-dependent} label noise is challenging, because it is hard to model such real-world noise. Note that there are psychological and physiological evidences showing that we humans perceive instances by decomposing them into parts. Annotators are therefore more likely to annotate instances based on the parts rather than the whole instances, where a wrong mapping from parts to classes may cause the instance-dependent label noise. Motivated by this human cognition, in this paper, we approximate the instance-dependent label noise by exploiting extit{part-dependent} label noise. Specifically, since instances can be approximately reconstructed by a combination of parts, we approximate the instance-dependent extit{transition matrix} for an instance by a combination of the transition matrices for the parts of the instance. The transition matrices for parts can be learned by exploiting anchor points (i.e., data points that belong to a specific class almost surely). Empirical evaluations on synthetic and real-world datasets demonstrate our method is superior to the state-of-the-art approaches for learning from the instance-dependent label noise.

연구 동기 및 목표

  • 인스턴스 전체가 아닌 부분(part)에 따라 의존하는 라벨 노이즈를 동기 부여하고 모델링한다.
  • 앵커 포인트를 사용하여 파트 의존적 전이 행렬을 학습하는 실용적 프레임워크를 개발한다.
  • 인스턴스 의존 전이가 파트 의존 전이의 가중합으로 잘 근사될 수 있음을 보인다.
  • 여러 데이터 세트에서 고노이즈 조건하에서 우수한 분류 성능을 입증한다.
  • 파트 의존 라벨 노이드 학습에 대한 알고리즘적 경로와 경험적 검증을 제공한다.

제안 방법

  • 인스턴스 의존 노이즈를 파트 의존 전이 행렬들의 가중합으로 표현한다: T(x) ≈ sum_j h_j(x) P^j, h(x)는 인스턴스를 재구성하도록 학습한다.
  • 비음수 행렬 분해(NMF) 유사 표현으로 파트를 학습한다: min_W, h(x_i) sum_i || x_i - W h(x_i) ||^2, h(x_i) ∈ R_+^r, ||h(x_i)||_1 = 1.
  • 앵커 포인트에서 T(x)의 행을 맞춰 파트 의존 행렬 P^j를 추정한다( Y가 확률 1로 알려진 포인트). 행 합 제약 ||P_i^j||_1 = 1하의 볼록 문제를 해결한다.
  • 앵커 포인트가 희소하거나 사용 불가능할 때 인스턴스 독립적 전이 행렬을 수정하기 위해 완충 변수 ΔT를 사용한다.
  • 알고리즘 1은 요약한다: 1) 심층 표현을 학습하고, 2) Eq. (1)을 통해 h(x)를 추정하며, 3) 앵커 포인트를 통해 행별 P^j를 학습한다(Eq. 3 및 Eq. 4), 4) Eq. (2)로 T(x)를 형성한다.
  • 두 핵심 방정식에 기반: (2) T(x) ≈ ∑_j h_j(x) P^j with ∥h(x)∥_1 = 1, 그리고 (3) 앵커 행 T_i·(x^i)를 ∑_j h_j(x^i) P_i·^j로 재구성하는 것.

실험 결과

연구 질문

  • RQ1앵커 포인트를 사용하여 데이터로부터 파트 수준의 전이 행렬을 학습해 인스턴스 의존 라벨 노이즈를 근사할 수 있는가?
  • RQ2선형 결합될 때 파트 기반 재구성이 per-instance 노이즈를 얼마나 잘 포착하는가? (NMF 유사 표현을 통한)
  • RQ3기존 방법과 비교해 PDN 기반 전이 행렬이 합성 및 실제 노이즈 데이터 세트에서 분류 견고성을 향상시키는가?
  • RQ4부분 수의 변화가 근사 오차 및 최종 정확도에 미치는 영향은 무엇인가?

주요 결과

  • PTD 변형은 다양한 IDN 노이즈 수준에서 합성 벤치마크(F-MNIST, SVHN, CIFAR-10, NEWS)에서 최첨단 노이즈 라벨 방법을 일관되게 능가하며, 특히 더 높은 노이즈에서 두드러진 성능을 보인다(IDN-50%).
  • CIFAR-10에서 PTD-R-V는 심한 노이즈 설정에서 최상의 베이스라인 대비 최대 약 10%의 절대 정확도 향상을 보여준다.
  • 적층 실험 결과 PDN 모델이 클래스 의존 모델보다 더 낮은 근사 오차를 달성하고 파트 수에 강건함을 보인다.
  • Clothing1M(현실 세계의 노이즈 데이터)에서 PTD-R-V가 비교 방법 중 최고 보고 정확도(71.67%)를 달성한다.
  • 앵커 포인트 기반 학습은 파트 의존 전이 행렬의 신뢰할 수 있는 추정을 가능하게 하여 제한된 앵커 정보에서도 인스턴스 의존 노이즈를 효과적으로 재구성하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.