QUICK REVIEW

[논문 리뷰] TRAINING DEEP NEURAL NETWORKS ON NOISY LABELS WITH BOOTSTRAPPING

Scott Reed, Honglak Lee|arXiv (Cornell University)|2015. 01. 01.

Face recognition and analysis참고 문헌 34인용 수 330

한 줄 요약

이 논문은 깊이 있는 특징 임bedding를 사용하여 유사한 입력 간의 예측 일관성을 강제화함으로써 노이즈가 많거나 완전하지 않은 레이블에 대한 딥 네URAL 네트워크의 강건성을 향상시키는 부트스트래핑 방법을 제안한다. 이 방법은 레이블 손상이 있는 MNIST, 토리onto 얼굴 데이터베이스에서의 주관적 정서 인식, ILSVRC2014에서의 확장 가능한 객체 탐지에서 아키텍처 변경 없이도 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Current state-of-the-art deep learning systems for visual object recognition and detection use purely supervised training with regularization such as dropout to avoid overfitting. The performance depends critically on the amount of labeled examples, and in current practice the labels are assumed to be unambiguous and accurate. However, this assumption often does not hold; e.g. in recognition, class labels may be missing; in detection, objects in the image may not be localized; and in general, the labeling may be subjective. In this work we propose a generic way to handle noisy and incomplete labeling by augmenting the prediction objective with a notion of consistency. We consider a prediction consistent if the same prediction is made given similar percepts, where the notion of similarity is between deep network features computed from the input data. In experiments we demonstrate that our approach yields substantial robustness to label noise on several datasets. On MNIST handwritten digits, we show that our model is robust to label corruption. On the Toronto Face Database, we show that our model handles well the case of subjective labels in emotion recognition, achieving state-of-theart results, and can also benefit from unlabeled face images with no modification to our method. On the ILSVRC2014 detection challenge data, we show that our approach extends to very deep networks, high resolution images and structured outputs, and results in improved scalable detection.

연구 동기 및 목표

딥 러닝에서 레이블이 노이즈가 많거나 완전하지 않을 경우 성능이 크게 떨어지는 이 비효율적인 문제를 해결하기 위해.
청결한 레이블이 필요 없이도 모델의 강건성을 향상시킬 수 있는 일반적이고 아키텍처에 종속되지 않는 방법을 개발하기 위해.
실제 비전 작업에서 주관적인 레이블링이 발생하는 상황에서 비정상 레이블 데이터의 효과적인 활용과 처리를 가능하게 하기 위해.
고해상도 이미지와 객체 탐지와 같은 구조적 출력으로의 강건한 훈련을 확장하기 위해.

제안 방법

유사한 깊이 있는 특징을 가진 입력 간에 동일한 예측을 유도하는 일관성 목적함수를 도입한다.
입력 간의 유사도는 네트워크에서 추출한 깊이 있는 특징 공간에서의 L2 거리로 측정된다.
표준 교차 엔트로피 손실과 일관성 정규화 항을 함께 사용하는 종합 목적함수로 엔드 투 엔드로 모델을 훈련시킨다.
특징 간의 거리가 학습된 임계값 이내인 입력 쌍 간에 일관된 예측을 강제한다.
이 방법은 기존 모델에 수정 없이 적용 가능하므로, 노이즈가 있는 레이블에 대한 즉각적인 강건성 향상을 가능하게 한다.
비정상 레이블 데이터는 명시적인 데이터 증강이나 모델 재학습 없이도 일관성 목적함수를 통해 수동으로 활용할 수 있다.

실험 결과

연구 질문

RQ1특징 기반의 일관성 정규화는 이미지 분류에서 레이블 노이즈에 대한 딥 러닝 모델의 강건성을 향상시킬 수 있는가?
RQ2얼굴 정서 인식과 같이 주관적 또는 모호한 레이블링이 발생하는 데이터셋에서 이 방법은 얼마나 잘 작동하는가?
RQ3이 방법은 고해상도 이미지와 객체 탐지와 같은 복잡한 구조적 출력으로 확장 가능한가?
RQ4아키텍처나 훈련 방식의 수정 없이도 비정상 레이블 데이터로부터 이점 얻을 수 있는가?

주요 결과

50%의 레이블 손상이 있는 MNIST에서 모델은 테스트 오차 1.8%를 기록하여 기준 모델보다 뚜렷이 뛰어난 성능을 보였다.
토리onto 얼굴 데이터베이스에서 주관적 레이블링 조건 하에 정서 인식 분야에서 최신 기술 수준의 성능을 달성했다.
ILSVRC2014 탐지 작업에서 일반화 능력 향상을 입증하여, 깊이 있는 네트워크와 고해상도 입력으로의 확장성도 입증했다.
훈련 파이프라인의 어떤 수정 없이도 비정상 레이블 이미지들을 효과적으로 활용하여 성능 향상을 이룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.