QUICK REVIEW

[논문 리뷰] MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels

Lu Jiang, Zhengyuan Zhou|arXiv (Cornell University)|2017. 12. 14.

Human Pose and Action Recognition참고 문헌 31인용 수 536

한 줄 요약

멘토넷은 데이터 기반 커리큘럼을 학습하여 StudentNet의 학습을 감독하고, 손상되었거나 노이즈 라벨로 학습된 아주 깊은 네트워크의 일반화 성능을 향상시키며, 대규모 WebVision 및 ImageNet 실험을 포함한다.

ABSTRACT

Recent deep networks are capable of memorizing the entire data even when the labels are completely random. To overcome the overfitting on corrupted labels, we propose a novel technique of learning another neural network, called MentorNet, to supervise the training of the base deep networks, namely, StudentNet. During training, MentorNet provides a curriculum (sample weighting scheme) for StudentNet to focus on the sample the label of which is probably correct. Unlike the existing curriculum that is usually predefined by human experts, MentorNet learns a data-driven curriculum dynamically with StudentNet. Experimental results demonstrate that our approach can significantly improve the generalization performance of deep networks trained on corrupted training data. Notably, to the best of our knowledge, we achieve the best-published result on WebVision, a large benchmark containing 2.2 million images of real-world noisy labels. The code are at https://github.com/google/mentornet

연구 동기 및 목표

깊은 신경망이 손상된 라벨을 암기하는 문제와 견고한 일반화의 필요성에 대한 동기를 부여한다.
학습 중 백본 네트워크를 감독하기 위한 데이터 기반 커리큘럼 학습 접근법을 제안한다.
대형 심층 아키텍처와 대규모 데이터셋에 대한 방법의 확장 가능성을 입증한다.
제어된 및 실제 노이즈 라벨 모두에서 사전에 정의된 커리큘럼에 비해 실증적 이득을 보여준다.

제안 방법

StudentNet의 피드백을 관찰하여 커리큘럼을 형성하는 샘플 가중치를 학습하는 MentorNet을 도입한다.
MentorNet이 학습된 함수 g_m(z_i;Θ)로 샘플당 가중치를 출력하는 StudentNet과의 결합 목표를 형식화한다.
MentorNet이 미리 정의된 커리큘럼을 근사하거나 데이터에서 데이터 기반 커리큘럼을 발견하도록 허용한다.
SPADE(Scholastic gradient Partial DEScent)를 사용하여 미니 배치 SGD에서 MentorNet과 함께 StudentNet을 최적화하고 병렬 학습을 가능하게 한다.
학습 중 MentorNet을 업데이트하는 번인 기간과 동적 커리큘럼을 제공한다.
학습된 커리큘럼을 M-estimators (Huber, log-sum penalties) 등을 통한 강인한 목적 함수 해석과 연결한다.

실험 결과

연구 질문

RQ1학습된 데이터 기반 커리큘럼이 손상된 라벨로 학습한 아주 깊은 네트워크의 일반화를 향상시킬 수 있는가?
RQ2결합 학습된 MentorNet–StudentNet 프레임워크가 제어된 및 실제 노이즈 라벨에서 정의된 커리큘럼과 어떻게 비교되는가?
RQ3제안된 학습 알고리즘이 대규모 데이터셋과 아키텍처에 대해 확장 가능하고 수렴하는가?
RQ4라벨 노이즈를 가진 학습에서 학습된 커리큘럼이 시사하는 기본적인 강인한 목적 함수는 무엇인가?

주요 결과

제어된 손상 라벨 벤치마크에서 데이터 기반 커리큘럼을 가진 MentorNet이 baseline 학습 대비 검증 정확도를 크게 향상시킨다.
학습된 커리큘럼(MentorNet DD)은 Self-paced 및 Focal Loss와 같은 사전에 정의된 커리큘럼보다 실험에서 우수하다.
40% 노이즈 라벨이 있는 대규모 ImageNet에서 MentorNet은 무정규화 및 완전 정규화 모델을 포함한 여러 베이스라인에 비해 P@1 및 P@5를 개선한다.
실제 노이즈 라벨이 있는 WebVision에서 MentorNet은 이미지넷 및 WebVision 검증에서 깨끗한 데이터로 평가할 때 기저 방법을 상당히 개선한다.
MentorNet은 수렴 및 안정적인 학습을 보여주며, 학습 오차가 0에 가까워지면서 테스트 성능은 라벨 노이즈에 견고하게 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.