QUICK REVIEW

[논문 리뷰] FINE Samples for Learning with Noisy Labels

Taehyeon Kim, Jongwoo Ko|arXiv (Cornell University)|2021. 02. 23.

Machine Learning and Data Classification참고 문헌 51인용 수 38

한 줄 요약

FINE은 클래스별 Gram 행렬의 첫 번째 고유벡터와의 잠재 표현 정렬을 검사하여 레이블 노이즈를 걸러내는 도함수 없는(detector) 검출기를 도입하고, 이를 통해 벤치마크 전반에서 강건한 샘플 선택, SSL, 및 강건한 손실과의 협업을 가능하게 한다.

ABSTRACT

Modern deep neural networks (DNNs) become frail when the datasets contain noisy (incorrect) class labels. Robust techniques in the presence of noisy labels can be categorized into two folds: developing noise-robust functions or using noise-cleansing methods by detecting the noisy data. Recently, noise-cleansing methods have been considered as the most competitive noisy-label learning algorithms. Despite their success, their noisy label detectors are often based on heuristics more than a theory, requiring a robust classifier to predict the noisy data with loss values. In this paper, we propose a novel detector for filtering label noise. Unlike most existing methods, we focus on each data's latent representation dynamics and measure the alignment between the latent distribution and each representation using the eigendecomposition of the data gram matrix. Our framework, coined as filtering noisy instances via their eigenvectors (FINE), provides a robust detector with derivative-free simple methods having theoretical guarantees. Under our framework, we propose three applications of the FINE: sample-selection approach, semi-supervised learning approach, and collaboration with noise-robust loss functions. Experimental results show that the proposed methods consistently outperform corresponding baselines for all three applications on various benchmark datasets.

연구 동기 및 목표

노이즈 레이블이 있는 데이터셋에서 전통적 로스 기반 검출기가 분류기 바이어스로 실패하는 경우에도 강건한 학습을 가능하게 하려는 동기 부여.
후향 예측이 아닌 잠재 표현 기하학에 의존하는 노이즈 검출기를 개발.
노이즈가 섞인 인스턴스를 필터링하기 위한 이론적으로 근거 있는 프레임워크를 보장.
샘플 선택, 반지도 학습(SSL), 노이즈에 강한 로스와의 협업의 세 가지 LNL 응용에서 검출기를 시연.

제안 방법

전처리 로짓 표현으로부터 클래스별 그람 행렬을 구성하고 고유분해를 수행하여 각 클래스의 첫 번째 고유벡터를 얻는다.
데이터 포인트의 정렬을 클래스의 첫 번째 고유벡터와의 제곱 내적으로 정의하고, 정렬 분포를 가우시안 혼합 모델(GMM)로 모델링하여 깨끗한 샘플과 노이즈 샘플을 구분한다.
노이즈 비율 추정 없이도 GMM의 깨끗한 구성요소에 속하는 샘플을 선택하여 노이즈 있는 데이터를 필터링한다.
레이블 노이즈 하에서 추정된 깨끗한 고유벡터의 섭동에 대한 이론적 상한(정리 1)을 제시하고, 섭동을 노이즈 비율과 깨끗한/노이즈 클래스 방향 사이의 각도와 연결한다.
데이터의 작은 샘플 subset으로 고유벡터를 근사하여도 높은 정확도를 유지하며 확장성을 보여준다.
FINE을 세 가지 LNL 패러다임에 통합한다: (1) 샘플 선택(기존 검출기를 대체), (2) SSL(손실 기반 필터링 대체), (3) 노이즈 강건 로스와의 협업.

실험 결과

연구 질문

RQ1잠재공간의 고유벡터 구조가 노이즈 레이블에 대해 도함수 없는 강건한 검출기를 제공할 수 있는가, 노이즈 비율 추정 없이도?
RQ2첫 번째 고유벡터에 대한 정렬이 데이터셋과 노이즈 패턴 전반에서 깨끗한 샘플과 노이즈 샘플을 얼마나 잘 구분하는가?
RQ3샘플 선택, SSL 및 강건 로스 협업에서 FINE 기반 검출기가 기존 검출기와 비교해 성능을 향상시키는가?
RQ4현실적 가정 하에서 검출기의 고유벡터 정렬을 깨끗한 데이터 식별과 연결하는 이론적 보장이 무엇인가?

주요 결과

FINE은 CIFAR-10/100에서 대칭 및 비대칭 노이즈 하의 다수 설정에서 샘플 선택 작업에서 경쟁 기법들보다 일관되게 우수한 성능을 보였다.
손실 기반 필터링을 FINE으로 대체하면 Co-teaching 변형(F-Co-teaching) 및 TopoFilter/CRUST 기준과 결합했을 때 상당한 이득이 나타났다.
SSL에서 FINE 기반 DivideMix(F-DivideMix)은 DivideMix보다 높은 테스트 정확도를 달성하고 심각한 노이즈 하에서 최첨단 SSL 방법들과 경쟁력을 보였다.
노이즈 강건 로스(GCE, SCE, ELR)와의 협업에서 FINE 가이드가 일반화 성능을 개선한다는 것을 보여 주었다.
Clothing1M에 대한 실험은 합리적인 성능을 나타내어 합성 벤치마크를 넘어 FINE의 실제 응용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.