QUICK REVIEW

[논문 리뷰] SELF: Learning to Filter Noisy Labels with Self-Ensembling

Duc Tam Nguyen, Chaithanya Kumar Mummadi|arXiv (Cornell University)|2019. 10. 04.

Machine Learning and Data Classification참고 문헌 25인용 수 56

한 줄 요약

SELF는 예측의 셀프 앙상블과 Mean Teacher 학습을 사용하여 잠재적으로 노이즈가 있는 레이블을 점진적으로 제거하고, 노이즈가 있는 지도 학습을 반지도학습 설정으로 바꾸며 데이터셋 전반에 걸친 레이블 노이즈에 대한 강건성을 높인다.

ABSTRACT

Deep neural networks (DNNs) have been shown to over-fit a dataset when being trained with noisy labels for a long enough time. To overcome this problem, we present a simple and effective method self-ensemble label filtering (SELF) to progressively filter out the wrong labels during training. Our method improves the task performance by gradually allowing supervision only from the potentially non-noisy (clean) labels and stops learning on the filtered noisy labels. For the filtering, we form running averages of predictions over the entire training dataset using the network output at different training epochs. We show that these ensemble estimates yield more accurate identification of inconsistent predictions throughout training than the single estimates of the network at the most recent training epoch. While filtered samples are removed entirely from the supervised training loss, we dynamically leverage them via semi-supervised learning in the unsupervised loss. We demonstrate the positive effect of such an approach on various image classification tasks under both symmetric and asymmetric label noise and at different noise ratios. It substantially outperforms all previous works on noise-aware learning across different datasets and can be applied to a broad set of network architectures.

연구 동기 및 목표

군중 또는 웹 주석으로부터 노이즈가 있는 레이블이 포함된 학습 데이터일 때 강건한 학습을 유도한다.
학습 중에 가능성이 높은 잘못된 레이블을 식별하고 제거하는 간단하고 효과적인 메커니즘을 제안한다.
남은 깨끗한 레이블을 지도 학습에 활용하고 전체 데이터셋을 비지도 손실에 사용한다.
여러 아키텍처와 데이터셋(CIFAR-10, CIFAR-100, ImageNet)에서 강건성을 입증한다.
대칭 및 비대칭 레이블 노이즈 하에서 기존의 노이즈 강건성 방법들보다 우수함을 보여준다.

제안 방법

안정적인 감독 신호를 제공하기 위해 실행 중인 Mean Teacher 앙상블(런닝 Mean Teacher)을 유지한다.
학습 에포크에 걸쳐 샘플 예측의 이동 평균을 구축하여 각 샘플에 대한 셀프 앙상블 예측을 형성한다.
샘플의 현재 레이블이 시간에 따른 앙상블 예측의 최댓값(argmax)과 일치하는 샘플만 남김으로써 레이블을 필터링한다; 남은 노이즈 샘플은 지도 손실에서 제거되지만 비지도 손실에서는 사용된다.
필터링된 레이블 집합으로 반복적으로 학습하고 레이블 집합을 재평가하고 개선이 더 이상 관찰되지 않을 때까지 다듬는다.
전체 데이터셋을 비지도 손실에 활용하는 반지도학습 문제로 다루고 지도학은 필터링된 더 깨끗한 부분집합에만 수행한다.
훈련 안정화를 위해 두 번째 앙상블(Mean Teacher)을 선택적으로 사용하고 모델 앙상블과 예측 앙상블을 결합해 강건성을 높인다.

실험 결과

연구 질문

RQ1많은 레이블 노이즈 하에서도 학습 에포크에 걸친 예측의 셀프 앙상블이 올바르게 라벨링된 샘플을 신뢰성 있게 식별할 수 있는가?
RQ2학습 중에 노이즈가 있는 레이블을 점진적으로 필터링하는 것이 표준 이미지 분류 벤치마크에서 일반화 성능을 개선하는가?
RQ3SELF가 대칭 및 비대칭 레이블 노이즈와 다양한 네트워크 아키텍처에서 어떻게 수행되는가?
RQ4필터링된 깨끗한 부분집합과 비지도 손실이 기존의 노이즈 강건성 방법과 경쟁하거나 이를 능가할 수 있는가?
RQ5이 접근법이 연구된 특정 네트워크 및 데이터셋을 넘어 다른 작업에 전이될 수 있는가?

주요 결과

SELF는 CIFAR-10, CIFAR-100, ImageNet 실험에서 대칭 및 비대칭 레이블 노이즈 모두에 대한 강건성을 일관되게 향상시킨다.
Mean Teacher 모델과 예측의 이동 평균을 이용해 레이블을 필터링하는 방식은 한 에포크 예측보다 깨끗한 샘플을 더 신뢰성 있게 식별한다.
점진적 필터링과 반지도 학습의 결합은 여러 아키텍처와 노이즈 수준에서 기존의 노이즈 인식 방법들보다 더 높은 정확도를 낸다.
다른 네트워크 백본에서도 효과가 유지되어 아키텍처 강건성을 시사한다.
전체 SELF 구현(모델 앙상블과 예측 앙상블 포함)은 가장 큰 이득을 제공하며 높은 노이즈 비율에 대해서도 강건하다(연구에서 보고된 바와 같이).
소거 연구에서 예측 앙상블 제거나 점진적 필터링 제거는 성능을 저하시키며 각 구성요소의 기여를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.