QUICK REVIEW

[논문 리뷰] Learning to learn by gradient descent by gradient descent

Marcin Andrychowicz, Misha Denil|arXiv (Cornell University)|2016. 06. 14.

Human Pose and Action Recognition참고 문헌 33인용 수 344

한 줄 요약

본 논문은 다양한 목적 함수를 최적화하기 위한 업데이트 규칙을 학습하는 신경망 최적화기(LSTM 기반 업데이트기)를 학습시키고, 수작업으로 설계된 최적화기보다 성능이 우수하며 작업 및 아키텍처에 걸쳐 일반화된다는 것을 보여준다.

ABSTRACT

The move from hand-designed features to learned features in machine learning has been wildly successful. In spite of this, optimization algorithms are still designed by hand. In this paper we show how the design of an optimization algorithm can be cast as a learning problem, allowing the algorithm to learn to exploit structure in the problems of interest in an automatic way. Our learned algorithms, implemented by LSTMs, outperform generic, hand-designed competitors on the tasks for which they are trained, and also generalize well to new tasks with similar structure. We demonstrate this on a number of tasks, including simple convex problems, training neural networks, and styling images with neural art.

연구 동기 및 목표

문제 구조를 활용할 수 있는 학습 가능한 최적화기로 수작업으로 설계된 최적화 규칙을 대체한다.
최적화기 설계를 여러 작업의 분포에 걸쳐 학습하는 메타학습 문제로 간주한다.
새로운 아키텍처, 활성화 함수 및 관련 문제에 대해 처음부터 재학습하지 않고도 전이 가능하도록 한다.
매우 큰 매개변수 수에 적합한 좌표별 LSTM 옵티마이저를 통해 규모 확장성을 입증한다.

제안 방법

업데이트 기 g를 최적화 대상 매개변수에 좌표별로 작동하는 순환신경망(LSTM)으로 매개변수화한다.
매개변수 순서를 불변하고 모델을 компакт하게 유지하기 위해 좌표 간에 옵티마이저 파라미터를 공유한다.
최적화 궤적에 걸친 가중 손실을 합산하는 목적함수를 최소화하여 옵티마이저를 학습하고, φ에 대해 시간에 따라 역전파한다.
부분 궤적에서의 학습을 가능하게 하기 위해 잘린 BPTT와 여유 있는 궤적 목표를 이용하여 최적화 그래프를 통한 그래디언트 흐름을 활용한다.
최적화기의 입력/출력을 안정시키기 위한 전처리 및 후처리를 적용하며, 구체적인 그래디언트 전처리 방법을 포함한다.
학습된 최적화를 기존 기준선(SGD, RMSprop, Adam, NAG)과 비교하고, 2차 함수, MNIST, CIFAR-10, Neural Art 등 여러 작업에서 평가한다.

실험 결과

연구 질문

RQ1학습된 신경망 최적화기가 해당 문제들에서 전통적으로 설계된 최적화기보다 더 잘 수행할 수 있는가?
RQ2같은 문제 클래스 내에서 서로 다른 모델 아키텍처와 활성화 함수에 대해 학습된 최적화기가 어느 정도까지 일반화될 수 있는가?
RQ3좌표별 LSTM 업데이트기가 큰 신경망에서도 확장 가능하고 관련 작업 간에 전달될 수 있는가?
RQ4학습된 최적화기가 학습 분포의 경계를 넘어(예를 들어 Neural Art의 다른 데이터, 스타일, 해상도) 작업으로 얼마나 잘 전달되는가?

주요 결과

학습된 LSTM 최적화기가 이차 함수 및 신경망 학습을 포함한 여러 작업에서 표준 벤치마크를 크게 능가한다.
한 아키텍처/일반 설정에서 학습된 LSTM 최적화기가 MNIST 및 CIFAR-10 작업에서 다른 아키텍처와 활성화 함수에 일반화될 수 있다.
CIFAR-10에서 학습된 최적화기는 보류된 데이터 분포에서 수작업 설계 최적화기를 능가하며 일부 라벨이 제거되거나 데이터셋이 변형되더라도 우수한 성능을 보인다.
Neural Art 스타일 전이에서 LSTM 최적화기가 전통적 최적화기를 능가하고 학습 조건을 넘어 새로운 스타일과 더 높은 해상도에 일반화된다.
공유 가중치를 가지되 은닉 상태를 각각 분리한 좌표별 LSTM은 많은 매개변수로 확장하는 데 용이하면서도 전달 능력을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.