[논문 리뷰] Learning from Noisy Labels with Distillation
대규모 노이즈 데이터에서 작은 깨끗한 데이터 세트를 사용하여 학습하는 distillation 기반 프레임워크를 제안하고, distillation을 안내하는 지식 그래프를 도입합니다. 실제 세계의 노이즈 레이블 벤치마크를 소개합니다.
The ability of learning from noisy labels is very useful in many visual recognition tasks, as a vast amount of data with noisy labels are relatively easy to obtain. Traditionally, the label noises have been treated as statistical outliers, and approaches such as importance re-weighting and bootstrap have been proposed to alleviate the problem. According to our observation, the real-world noisy labels exhibit multi-mode characteristics as the true labels, rather than behaving like independent random outliers. In this work, we propose a unified distillation framework to use side information, including a small clean dataset and label relations in knowledge graph, to "hedge the risk" of learning from noisy labels. Furthermore, unlike the traditional approaches evaluated based on simulated label noises, we propose a suite of new benchmark datasets, in Sports, Species and Artifacts domains, to evaluate the task of learning from noisy labels in the practical setting. The empirical study demonstrates the effectiveness of our proposed method in all the domains.
연구 동기 및 목표
- 깨끗한 레이블이 드문 대규모 노이즈 데이터셋 학습의 동기를 제시한다.
- 노이즈 데이터로부터의 학습을 안내하기 위해 작은 깨끗한 데이터셋을 활용하는 distillation 프레임워크를 제안한다.
- 레이블 신뢰도 확산을 돕고 모델 분산을 줄이기 위해 지식 그래프를 통합한다.
- 레이블 노이즈를 평가하기 위한 실제 세계 벤치마크 데이터셋을 생성한다.
제안 방법
- 작은 깨끗한 데이터셋에서 보조 모델을 학습한다.
- 노이즈 레이블과 보조 예측(가짜 레이블)을 결합한 distillation 손실을 사용하여 전체 노이즈 데이터셋에서 주 모델을 학습한다.
- 학습을 더욱 안내하기 위해 지식 그래프 기반의 소프트 레이블(GSi)을 도입한다.
- 가짜 레이블의 위험이 노이즈 또는 깨끗한 레이블만 사용하는 경우보다 감소할 수 있음을 이론적으로 도출한다.
- Sports, Species, Artifact에 걸친 YFCC100M에서 부분적으로 깨끗한 데이터를 사용해 실제 세계 벤치마크 데이터셋을 구성한다.
- 깨끗한 데이터 학습, 노이즈 학습, 부트스트래핑, 라벨 스무딩 및 다양한 재가중 방법을 포함한 기준선과 비교 평가한다.
실험 결과
연구 질문
- RQ1작은 깨끗한 데이터셋의 distillation이 대규모 노이즈 데이터셋에서 학습을 개선할 수 있는가?
- RQ2distillation을 안내하기 위해 지식 그래프를 도입하는 것이 노이즈 레이블에 대한 방어를 더 강화하는가?
- RQ3제안된 방법들이 다양한 도메인에서 실제 세계의 노이즈 데이터셋에서 어떻게 성능을 내는가?
- RQ4지식 그래프를 활용한 distillation이 완전히 깨끗한 레이블로 설정된 상한에 얼마나 근접할 수 있는가?
주요 결과
- Distillation은 네 가지 데이터셋(Sports, Species-Y, Species-I, Artifacts) 전반에서 기준선보다 우수한 성능을 보였다.
- 의미론/지식 그래프 안내 distillation은 표준 distillation 대비 추가 이점을 제공했다.
- 제안된 방법은 일부 데이터셋에서 상한선(완전히 깨끗한 데이터)까지의 간극을 줄이며 노이즈의 영향을 줄였다.
- 학습된 가짜 레이블은 실제 양성 예측의 순위를 개선하고 노이즈 레이블에 비해 오탐을 감소시켰다.
- 온도 매개변수 T의 성능 안정성이 확인되었다.
- 실제 세계의 노이즈 벤치마크는 합성 노이즈를 넘는 실용성과 관련성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.