QUICK REVIEW

[논문 리뷰] Beyond Synthetic Noise: Deep Learning on Controlled Noisy Labels

Lu Jiang, Di Huang|arXiv (Cornell University)|2019. 11. 21.

Machine Learning and Data Classification인용 수 123

한 줄 요약

이 논문은 제어된 실제(web) 라벨 노이즈에 대한 최초 벤치마크를 제시하고, 합성 및 실제 노이즈 라벨을 모두 다루는 MentorMix를 제안하며, 노이즈 유형, 수준, 아키텍처, 학습 설정에 걸친 DNN의 노이즈 라벨 학습 방식에 대한 대규모 결과를 제시한다.

ABSTRACT

Performing controlled experiments on noisy data is essential in understanding deep learning across noise levels. Due to the lack of suitable datasets, previous research has only examined deep learning on controlled synthetic label noise, and real-world label noise has never been studied in a controlled setting. This paper makes three contributions. First, we establish the first benchmark of controlled real-world label noise from the web. This new benchmark enables us to study the web label noise in a controlled setting for the first time. The second contribution is a simple but effective method to overcome both synthetic and real noisy labels. We show that our method achieves the best result on our dataset as well as on two public benchmarks (CIFAR and WebVision). Third, we conduct the largest study by far into understanding deep neural networks trained on noisy labels across different noise levels, noise types, network architectures, and training settings. The data and code are released at the following link: http://www.lujiang.info/cnlw.html

연구 동기 및 목표

웹 이미지에 대해 다중 노이즈 수준으로 주석을 달아 제어 가능한 웹(실세계) 라벨 노이즈 벤치마크를 개발한다.
깨끗한 라벨 없이도 합성 및 실제 노이즈 라벨을 모두 다루는 강건 학습 방법(MentorMix)을 제안하고 검증한다.
공개 합성 및 실제 세계의 노이즈 라벨 벤치마크에서 MentorMix를 최신 기준 baselines와 비교 분석한다.
노이즈 유형, 수준, 아키텍처, 학습 설정에 걸쳐 노이즈 라벨로 학습할 때 DNN의 동작을 분석해 이 영역에 대한 이해를 정교화한다.

제안 방법

경험적 인접 위험 최소화(empirical vicinal risk minimization) 기반의 커리큘럼 학습과 함께 강건한 손실인 MentorMix를 도입한다.
MentorNet을 통해 각 학습 샘플에 대해 최적의 잠재 가중치를 계산하고 이를 가중된 샘플 혼합(mixup)을 안내한다.
저손실 예제 쪽으로 biased되도록 혼합된 쌍을 선택하기 위해 실용적인 중요도 샘플링 전략을 사용한다.
샘플당 손실의 이동 평균 백분위를 이용해 예제 가중치를 조정하고 학습을 안정화한다.
MentorMix가 제어된 레드(웹) 및 블루(합성) 노이즈에서 데이터셋과 학습 설정에 따라 베이스라인보다 우수한 성능을 보임을 증명한다.

실험 결과

연구 질문

RQ1제어된 웹-라벨 노이즈를 구성하고 제어된 설정에서 여러 노이즈 수준에 걸쳐 DNN을 연구하는 데 사용할 수 있는가?
RQ2깨끗한 라벨에 접근하지 못하는 상황에서도 MentorMix 접근법이 합성 및 실제 세계의 노이즈 라벨에 대해 견고한 성능을 제공하는가?
RQ3합성 및 실제 세계의 노이즈 라벨에 대한 공개 벤치마크에서 MentorMix가 최신 방법 대비 어떤 성능을 보이는가?
RQ4다양한 노이즈 유형, 수준, 아키텍처 및 학습 규칙에서 노이즈 라벨로 학습할 때 DNN의 거시적 패턴은 어떠한가?

주요 결과

Mini-ImageNet과 Stanford Cars에 대해 10개 노이즈 수준으로 수동 주석을 달아 제어된 웹 라벨 노이즈(레드 노이즈)의 최초 벤치마크를 확립했다.
MentorMix는 합성 및 웹 노이즈 라벨 모두에서 일관되게 베이스라인보다 우수하며 CIFAR 및 WebVision 벤치마크에서 최첨단 결과를 달성한다.
WebVision 1.0에서 MentorMix는 추가적인 깨끗한 라벨 없이 이전 방법 대비 약 3%의 top-1 정확도를 향상시킨다.
MentorMix는 일반적인 훈련 및 기존 강건한 방법 대비 현저한 개선을 제공하며, 여러 아키텍처에 걸친 노이즈 설정에서 큰 이점을 보인다.
본 연구는 합성 노이즈를 가진 신경망에 대한 이전 발견들을 확인하고, 노이즈 라벨로 학습하는 것에 대한 일반적인 직관에 도전하는 새로운 관찰들을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.