QUICK REVIEW

[논문 리뷰] Understanding Short-Horizon Bias in Stochastic Meta-Optimization

Yuhuai Wu, Mengye Ren|arXiv (Cornell University)|2018. 03. 06.

Advanced Neural Network Applications참고 문헌 32인용 수 45

한 줄 요약

본 논문은 짧은 지평의 메타-목표가 매우 작은 학습률로의 편향을 유도하여 장기 성능이 나빠지게 하며; 확률적이고 ill-conditioned 설정에서 탐욕스러운 스케줄이 실패함을 노이즈가 있는 2차(Quadratic) 모델과 신경망 실험에서 보여준다.

ABSTRACT

Careful tuning of the learning rate, or even schedules thereof, can be crucial to effective neural net training. There has been much recent interest in gradient-based meta-optimization, where one tunes hyperparameters, or even learns an optimizer, in order to minimize the expected loss when the training procedure is unrolled. But because the training procedure must be unrolled thousands of times, the meta-objective must be defined with an orders-of-magnitude shorter time horizon than is typical for neural net training. We show that such short-horizon meta-objectives cause a serious bias towards small step sizes, an effect we term short-horizon bias. We introduce a toy problem, a noisy quadratic cost function, on which we analyze short-horizon bias by deriving and comparing the optimal schedules for short and long time horizons. We then run meta-optimization experiments (both offline and online) on standard benchmark datasets, showing that meta-optimization chooses too small a learning rate by multiple orders of magnitude, even when run with a moderately long time horizon (100 steps) typical of work in the area. We believe short-horizon bias is a fundamental problem that needs to be addressed if meta-optimization is to scale to practical neural net training regimes.

연구 동기 및 목표

신경망 학습에서 학습률과 모멘텀 조정을 핵심 도전과제로 삼도록 동기를 부여한다.
매우 짧은 지평을 가진 메타최적화 목표가 하이퍼파라미터를 작은 스텝으로 편향시키는 것을 보여준다.
확률적 특성과 ill-conditioning이 상호 작용하여 짧은 지평 편향을 생성하는 방식을 분석한다.
토이 분석과 신경망 실험을 통해 짧은 지평 메타최적화가 고정된 스케줄보다 성능이 떨어짐을 입증한다.
실용적 메타최적화에서 짧은 지평 편향을 완화할 방향을 제시한다.

제안 방법

모멘텀을 갖춘 SGD를 분석하기 위해 노이즈가 있는 2차 비용 모델을 확립한다.
노이즈가 있는 2차 설정에서 모멘텀을 갖춘 SGD의 평균-분산 동역학을 도출한다.
탐욕적으로 최적의(한 스텝 선헤드) 학습률 및 모멘텀 스케줄을 계산한다.
탐욕적 최적 해와 최적화된 장기 지평 스케줄을 분석적 및 실험적으로 비교한다.
MNIST와 CIFAR-10에서 오프라인/메타러닝 실험을 수행하여 지평 효과를 연구한다.
학습 중에 학습률과 모멘텀을 조정하기 위해 온라인 그래디언트 기반 메타최적화(SMD)를 구현한다.

실험 결과

연구 질문

RQ1짧은 지평 메타-목표 최적화가 학습률과 모멘텀 선택에 어떤 영향을 미치는가?
RQ2탐욕적(한 스텝) 스케줄이 장기 지평 최적 스케줄과 일치하거나 벗어나는 조건은 무엇인가?
RQ3확률성과 ill-conditioning이 메타최적화 성능에 미치는 영향은 무엇인가?
RQ4더 긴 지평 메타최적화가 신경망의 장기 학습 성능을 개선할 수 있는가?
RQ5메타최적화에서 짧은 지평 편향을 완화할 실용적 전략은 무엇인가?

주요 결과

짧은 지평 메타-목표는 학습률을 너무 빨리 감소시키는 편향을 유도하여 장기 진행에 해를 끼친다.
노이즈가 많고 ill-conditioned인 2차 설정에서 탐욕적 스케줄은 장기 손실 최소화를 위한 최적해와 큰 차이를 보일 수 있다.
결정적이거나 구 형태의 설정에서는 탐욕적 스케줄과 최적화된 스케줄이 일치하지만, 확률성과 ill-conditioning은 짧은 지평 편향을 초래한다.
온라인 및 오프라인 메타최적화가 짧은 지평에 의해 고정된 학습률을 사용하는 경우보다 성능이 떨어지며, 때로는 크게 떨어진다.
더 긴 메타-목적 지평은 느린 감소를 선호하는 스케줄과 더 나은 장기 성능으로 이어지며, 이는 MNIST와 CIFAR 실험에서 확인된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.