Skip to main content
QUICK REVIEW

[논문 리뷰] A Survey of Label-noise Representation Learning: Past, Present and Future

Bo Han, Quanming Yao|arXiv (Cornell University)|2020. 11. 09.
Machine Learning and Data Classification참고 문헌 149인용 수 101
한 줄 요약

라벨-노이즈 표현 학습 (LNRL)을 정의하고 이론, 계통분류, 그리고 노이즈 라벨 하에서 심층 모델을 강건하게 학습시키는 방법을 고찰하며, 향후 방향을 제시하는 포괄적 고찰.

ABSTRACT

Classical machine learning implicitly assumes that labels of the training data are sampled from a clean distribution, which can be too restrictive for real-world scenarios. However, statistical-learning-based methods may not train deep learning models robustly with these noisy labels. Therefore, it is urgent to design Label-Noise Representation Learning (LNRL) methods for robustly training deep models with noisy labels. To fully understand LNRL, we conduct a survey study. We first clarify a formal definition for LNRL from the perspective of machine learning. Then, via the lens of learning theory and empirical study, we figure out why noisy labels affect deep models' performance. Based on the theoretical guidance, we categorize different LNRL methods into three directions. Under this unified taxonomy, we provide a thorough discussion of the pros and cons of different categories. More importantly, we summarize the essential components of robust LNRL, which can spark new directions. Lastly, we propose possible research directions within LNRL, such as new datasets, instance-dependent LNRL, and adversarial LNRL. We also envision potential directions beyond LNRL, such as learning with feature-noise, preference-noise, domain-noise, similarity-noise, graph-noise and demonstration-noise.

연구 동기 및 목표

  • Label-noise Representation Learning (LNRL)과 그 범위를 정의합니다.
  • 노이즈가 왜 딥 모델에 영향을 미치는지 학습 이론과 경험적 관점에서 설명합니다.
  • 데이터, 목표, 최적화에 따라 LNRL 방법의 통합 분류를 제공합니다.
  • 노이즈 전이 행렬, 손실 보정, 최적화 기술을 활용하는 기존 접근방식을 조사합니다.
  • 레이블 노이즈를 넘어서 LNRL의 향후 연구 방향과 데이터셋을 제안합니다.

제안 방법

  • LNRL을 훈련 라벨이 손상된 일반 문제 설정으로 형식화합니다.
  • 데이터, 목표, 최적화 관점에 대한 이론적 기초를 조사합니다.
  • 데이터(노이즈 전이 행렬), 목표(노이즈에 견디는 손실), 최적화(기억화 기반 전략)에 따른 방법의 단일 분류를 개발합니다.
  • 핵심 도구로 앵커 포인트, 전이 행렬, 손실 보정을 논의합니다.
  • 최적화 지침으로 기억화 효과와 조기 중지의 영향을 강조합니다.
  • 향후 방향과 LNRL을 넘어서는 잠재 방향을 요약합니다.

실험 결과

연구 질문

  • RQ1Label-noise Representation Learning (LNRL)의 형식적 정의와 범위는 무엇입니까?
  • RQ2학습 이론과 경험적 관점에서 왜 노이즈가 있는 라벨이 딥 모델에 영향을 줍니까?
  • RQ3LNRL 방법은 어떻게 분류될 수 있으며 각 범주의 장단점은 무엇입니까?
  • RQ4강건한 LNRL을 위한 필수 구성 요소와 향후 방향은 무엇이며, 데이터셋과 적대적 설정은 어떤가요?

주요 결과

  • LNRL은 데이터, 목표, 최적화를 통합하여 노이즈 라벨에서도 강건하게 학습합니다.
  • 레이블 노이즈 전이 행렬의 추정 및 활용은 많은 접근법의 핵심입니다.
  • 노이즈에 강한 손실 및 분류기 일관 추정기가 노이즈 분포와 깨끈 분포를 연결하는 데 도움이 됩니다.
  • 기억화 효과와 조기 중지를 활용한 최적화 정책이 강건성을 향상시킬 수 있습니다.
  • 통일된 분류 체계는 서로 다른 LNRL 전략의 강점과 트레이드오프를 명확히 합니다.
  • 향후 방향에는 인스턴스 의존 노이즈, 적대적 LNRL, 다양한 노이즈 모달리티와의 학습이 포함됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.