QUICK REVIEW

[논문 리뷰] Understanding and correcting pathologies in the training of learned optimizers

Luke Metz, Niru Maheswaranathan|arXiv (Cornell University)|2018. 10. 24.

Advanced Neural Network Applications인용 수 47

한 줄 요약

본 논문은 학습 최적화기의 학습을 안정화하기 위해 결합된 reparameterization과 Evolutionary Strategies 그래디언트 추정기를 포함하는 변분적 outer objective를 도입하여, 대상 작업 분포에서CNN의 벽시계 시간 최적화를 수작업으로 설계된 방법보다 빠르게 수행할 수 있도록 한다.

ABSTRACT

Deep learning has shown that learned functions can dramatically outperform hand-designed functions on perceptual tasks. Analogously, this suggests that learned optimizers may similarly outperform current hand-designed optimizers, especially for specific problems. However, learned optimizers are notoriously difficult to train and have yet to demonstrate wall-clock speedups over hand-designed optimizers, and thus are rarely used in practice. Typically, learned optimizers are trained by truncated backpropagation through an unrolled optimization process resulting in gradients that are either strongly biased (for short truncations) or have exploding norm (for long truncations). In this work we propose a training scheme which overcomes both of these difficulties, by dynamically weighting two unbiased gradient estimators for a variational loss on optimizer performance, allowing us to train neural networks to perform optimization of a specific task faster than tuned first-order methods. We demonstrate these results on problems where our learned optimizer trains convolutional networks faster in wall-clock time compared to tuned first-order methods and with an improvement in test loss.

연구 동기 및 목표

특정 작업에 맞춘 최적화 알고리즘 학습을 일반적으로 손으로 설계된 최적화기에 의존하는 것보다 우선 고려한다.
학습 최적화기에서의 경향성 문제를 다룬다. 여기에는 잘린 역전파로 인한 그래디언트 편향과 폭주하는 그래디언트가 포함된다.
평활화된 손실과 두 가지 편향 없는 그래디언트 추정기에 기반한 안정적인 outer-objective를 제안한다.
학습된 최적화기가 벽시계 시간상의 CNN 학습을 더 빠르게 수행하고, 대상 작업에서 테스트 손실을 개선할 수 있음을 보인다.

제안 방법

학습 최적화기를 위한 내부 루프와 외부 루프 최적화를 정의한다.
긴 unrolls에서 TBPTT를 통해 편향과 폭주하는 그래디언트를 분석한다.
두 개의 편향 없는 그래디언트 추정기: g_rp (재매개화)와 g_es (진화적 전략)를 도입한다.
업데이트를 안정화하기 위해 역분산 가중치를 사용하여 그래디언트를 합성(g_merged)한다.
그래디언트 분산을 줄이기 위해 반대 수샘(antithetic sampling)을 적용한다.
안정성과 성능을 개선하기 위한 내부 unroll 증가 커리큘럼을 적용한다.

실험 결과

연구 질문

RQ1변분적 outer objective와 결합된 그래디언트 추정기가 긴 unroll 아래에서 학습된 최적화기의 학습을 안정화할 수 있는가?
RQ2이 방법으로 학습된 최적화기가 CNN 내부 작업에서 벽시계 시간 기준으로 손으로 설계된 최적화기보다 더 나은 성능을 보이는가?
RQ3검증 손실에 대한 외부 학습이 본 작업 분포를 넘는 일반화에 어떤 영향을 미치는가?
RQ4그래디언트 추정기 선택과 unroll 스케줄이 최적화기 성능에 미치는 영향은 무엇인가?

주요 결과

변분적 outer objective와 결합된 그래디언트 추정기 조합은 더 긴 unrolls에서도 그래디언트 폭주를 방지한다.
이 방법으로 학습된 최적화기는 SGD+Momentum, RMSProp, Adam 등과 같은 손으로 설계된 최적화기에 비해 대상 CNN 작업에서 벽시계 시간 기준으로 더 나은 성능을 보인다.
검증 목표에 대해 학습된 최적화기는 더 빠른 수렴과 더 낮은 테스트 손실을 달성한다.
학습된 최적화기는 MNIST와 같은 다른 아키텍처 및 입력 크기의 out-of-distribution 작업에 일반화한다.
アblation 연구는 그래디언트 추정기와 증가하는 unroll 커리큘럼이 성능에 결정적임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.