QUICK REVIEW

[논문 리뷰] Learning Gradient Descent: Better Generalization and Longer Horizons

Kaifeng Lv, Shunhua Jiang|arXiv (Cornell University)|2017. 03. 10.

Machine Learning and Algorithms참고 문헌 21인용 수 39

한 줄 요약

이 논문은 순환 신경망 기반의 학습 가능한 최적화 알고리즘인 RNNprop을 제안한다. RNNprop는 두 가지 핵심 학습 기법인 랜덤 스케일링과 손실 함수에 볼록 함수를 결합하는 방식을 통해 기존의 전통적 및 최신의 러닝-투-러닝 최적화 알고리즘을 능가한다. 단순한 MLP에서 학습된 RNNprop는 더 깊은 네트워크, 수천 단계에 이르는 긴 학습 기간, 그리고 CNN과 LSTM과 같은 다양한 아키텍처로 일반화되어, Adam과 Adagrad와 비교해도 성능이 유사하거나 뛰어나다.

ABSTRACT

Training deep neural networks is a highly nontrivial task, involving carefully selecting appropriate training algorithms, scheduling step sizes and tuning other hyperparameters. Trying different combinations can be quite labor-intensive and time consuming. Recently, researchers have tried to use deep learning algorithms to exploit the landscape of the loss function of the training problem of interest, and learn how to optimize over it in an automatic way. In this paper, we propose a new learning-to-learn model and some useful and practical tricks. Our optimizer outperforms generic, hand-crafted optimization algorithms and state-of-the-art learning-to-learn optimizers by DeepMind in many tasks. We demonstrate the effectiveness of our algorithms on a number of tasks, including deep MLPs, CNNs, and simple LSTMs.

연구 동기 및 목표

딥 뉴럴 네트워크 학습 시 수동적인 초기화값 조정과 알고리즘 선택 문제를 해결하기 위해.
다양한 아키텍처와 활성화 함수에 걸쳐 메타학습된 최적화 알고리즘의 일반화 능력을 향상시키기 위해.
학습된 최적화 알고리즘의 유효 학습 기간을 100단계를 넘어서 수천 단계까지 연장하여 안정적인 최적화를 가능하게 하기 위해.
RNN 기반 최적화 알고리즘의 강건성과 적응 능력을 향상시키는 실용적인 학습 기법을 개발하기 위해.
재학습 없이도 하나의 학습된 최적화 알고리즘이 MLP, CNN, LSTM 등 다양한 모델을 효과적으로 학습시킬 수 있음을 보여주기 위해.

제안 방법

최적화 대상의 기울기를 입력으로 받아 매개변수 갱신을 출력하는 RNN(특히 LSTM 기반 모델)로 최적화 알고리즘을 구현한다.
모델은 메타학습 목표를 통해 학습된다: 시그모이드 활성화 함수를 가진 기본 MLP에서 100단계 학습 과정의 최종 손실을 최소화하는 것이다.
학습 중 랜덤 스케일링을 적용한다: 최적화 대상의 매개변수를 무작위로 스케일링하여, 새로운 아키텍처와 활성화 함수에 대한 일반화 능력을 향상시킨다.
RNN 학습 중 손실 함수에 볼록 정규화 항을 추가하여 수렴 속도를 가속화하고 최적화의 안정성을 높인다.
최종 최적화 알고리즘인 RNNprop는 다양한 아키텍처와 데이터셋을 가진 더 깊은 MLP, CNN, LSTM 등의 다양한 작업에서 평가된다.
다양한 벤치마크와 초기화값 설정에서 DMoptimizer, Adam, Adagrad 및 기타 기준 모델과의 비교를 통해 방법을 평가한다.

실험 결과

연구 질문

RQ1기본 MLP에서 학습된 최적화 알고리즘이 ReLU 활성화 함수를 가진 더 깊거나 넓은 MLP에 대해 일반화 가능한가?
RQ2100단계 작업에서만 학습된 메타학습 최적화 알고리즘이 1000단계 이상의 긴 학습 기간 동안도 성능을 유지할 수 있는가?
RQ3제안된 학습 기법인 랜덤 스케일링과 볼록 손실 융합이 RNN 기반 최적화 알고리즘의 일반화 능력과 학습 안정성 향상에 얼마나 효과적인가?
RQ4학습된 최적화 알고리즘 RNNprop가 다양한 아키텍처와 데이터셋에서 수작업으로 설계된 최적화 알고리즘인 Adam과 Adagrad와 비교해 성능이 유사하거나 뛰어나게 유지되는가?
RQ5최적화 대상의 구조(예: CNN, LSTM)가 메타학습된 최적화 알고리즘의 일반화 능력에 얼마나 영향을 미치는가?

주요 결과

RNNprop는 기본 MLP에 대해 1000단계 학습을 수행한 결과 최종 손실이 0.30을 기록했으며, DMoptimizer(26.43)를 능가하고 Adam과 Adagrad와 비교해도 성능이 유사하거나 뛰어나다.
작은 노이즈(N(0,0.01))가 첨가된 2층 LSTM에서 RNNprop는 최종 손실 0.36을 기록했으며, Adam(0.39)과 Adagrad(0.50)를 모두 능가했다.
100단계 MLP에서 학습된 RNNprop는 MNIST 데이터셋에서 4층 CNN을 1000단계 이상 학습시킬 수 있었으며, Adam과 유사한 성능을 기록했다.
랜덤 스케일링 기법이 가장 효과적이었다: 이를 제거하면 ReLU 활성화 함수를 가진 MLP에서 성능이 크게 떨어졌고, 볼록 손실 융합은 학습을 가속화하는 데 기여했다.
기본 MLP에 대해 15,000회 반복 학습을 수행한 결과 RNNprop는 최종 손실 0.30을 기록했으며, 볼록 조합을 사용하지 않은 버전는 0.33을 기록하여 정규화 기법의 유용성을 확인했다.
2층 LSTM에서 RNNprop는 손실 0.28을 기록했으며, DMoptimizer(5.06)와 Adam(0.44)를 크게 앞서나갔다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.