QUICK REVIEW

[논문 리뷰] On The Power of Curriculum Learning in Training Deep Networks

Guy Hacohen, Daphna Weinshall|arXiv (Cornell University)|2019. 04. 07.

Advanced Neural Network Applications인용 수 132

한 줄 요약

본 논문은 CNN에서의 커리큘럼 학습(비균등 미니배치 샘플링)을 분석하고, 점수 부여와 페이싱 전략(전이 또는 부트스트래핑 점수를 통해)이 학습 속도를 높이고 최종 정확도를 향상시킨다는 것을 보여주며, 커리큘럼이 최적화 지형을 재구성하되 전역 최솟값을 바꾸지 않는다는 이론적 관점을 제시한다.

ABSTRACT

Training neural networks is traditionally done by providing a sequence of random mini-batches sampled uniformly from the entire training data. In this work, we analyze the effect of curriculum learning, which involves the non-uniform sampling of mini-batches, on the training of deep networks, and specifically CNNs trained for image recognition. To employ curriculum learning, the training algorithm must resolve 2 problems: (i) sort the training examples by difficulty; (ii) compute a series of mini-batches that exhibit an increasing level of difficulty. We address challenge (i) using two methods: transfer learning from some competitive ``teacher" network, and bootstrapping. In our empirical evaluation, both methods show similar benefits in terms of increased learning speed and improved final performance on test data. We address challenge (ii) by investigating different pacing functions to guide the sampling. The empirical investigation includes a variety of network architectures, using images from CIFAR-10, CIFAR-100 and subsets of ImageNet. We conclude with a novel theoretical analysis of curriculum learning, where we show how it effectively modifies the optimization landscape. We then define the concept of an ideal curriculum, and show that under mild conditions it does not change the corresponding global minimum of the optimization function.

연구 동기 및 목표

비균등 미니배치 샘플링을 통한 커리큘럼 학습(CL)이 CNN의 학습 속도와 일반화에 미치는 영향을 조사한다.
예제 난이도를 순위화하기 위한 점수 부여 함수(전이 기반과 부트스트래핑/자기주도 학습 기반)를 개발하고 비교한다.
학습 중 증가하는 난이도 노출을 제어하기 위한 다양한 페이싱 함수들을 탐색한다.
커리큘럼 학습이 최적화 지형을 재구성하는 방법에 대한 이론적 분석을 제공하고 기존 기법들과의 관련성을 설명한다.

제안 방법

CL을 난이도에 해당하는 점수 부여와 제시 속도에 해당하는 페이싱 함수로 분해하고, 미니배치 선택에서의 역할을 형식화한다.
사전 학습 네트워크를 이용한 전이 기반 점수 부여와 초기 학습 손실에 기반한 부트스트래핑/자기주도 학습 점수 부여의 두 가지 접근법을 구현한다.
고정된 지수형, 가변 지수형, 단일 스텝의 세 가지 페이싱 스킴을 여러 데이터셋과 아키텍처에서 평가한다.
신뢰할 수 있는 비교를 보장하기 위해 하이퍼파라미터 튜닝과 교차 검증을 통한 Weinshall et al. 2018의 재현 및 확장을 수행한다.
완만한 조건 하에서 전역 최솟값을 보존하면서 커리큘럼이 목적 함수 지형을 어떻게 바꾸는지 보여주는 이론적 프레임워크를 제공한다.

실험 결과

연구 질문

RQ1커리큘럼 학습이 데이터셋과 아키텍처 전반에 걸쳐 수렴 속도를 높이고 최종 정확도를 향상시키는가?
RQ2전이 기반 점수 부여와 부트스트래핑 점수 부여가 CL에서 얼마나 효과적으로 비교되는가?
RQ3다양한 페이싱 함수가 학습 역학과 하이퍼파라미터 튜닝에 미치는 영향은 무엇인가?
RQ4커리큘럼 학습은 최적화 지형을 어떻게 바꾸며, 어떤 조건에서 전역 최적해를 보존하는가?
RQ5일반적인 아키텍처를 사용하여 CIFAR-10/100, ImageNet 부분집합과 같은 더 큰 벤치마크에서도 CL의 이점을 관찰할 수 있는가?

주요 결과

커리큘럼 학습은 학습 속도를 높이고 여러 데이터셋과 아키텍처에서 기본 훈련(vanilla training)보다 더 높은 최종 테스트 정확도를 산출한다.
전이 기반 점수 부여 함수는 무작위 또는 기본 점수 부여를 능가하며, 이점이 정보에 기반한 난이도 추정에서 나온다는 것을 시사한다.
부트스트래핑(자기주도 학습) 점수 부여는 학습 전반에 걸쳐 테스트 정확도를 향상시키는 반면, 자기속도 학습(self-paced) 점수 부여는 학습을 지연시킬 수 있다.
다양한 페이싱 함수가 비슷한 성능을 보이며, 초기 학습 단계에 힘이 집중된다; 가변 지수 페이싱은 학습률 재조정 필요를 줄인다.
이론적 분석은 CL이 사전 정보를 도입함으로써 최적해의 중요성을 높여 최적화 지형을 효과적으로 수정하지만, 완만한 조건 하에서 전역 최솟값은 바뀌지 않는다는 것을 보여준다.
경험적 그래디언트는 전이 기반 CL이 매개변수를 기본 훈련과는 다소 다른 국소 최소로 이끈다는 것을 나타내며, 이상적인 조건에서 전역 최적해를 일관되게 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.