QUICK REVIEW

[논문 리뷰] Krylov Subspace Descent for Deep Learning

Oriol Vinyals, Daniel Povey|arXiv (Cornell University)|2011. 11. 18.

Neural Networks and Applications참고 문헌 15인용 수 78

한 줄 요약

이 논문은 헤시안-벡터 곱과 기울기로부터 생성된 크릴로프 부분공간을 이용해, 데이터 부분집합에서 BFGS를 사용하여 이하의 저차원 부분공간 내에서 최적화하는 제2차 최적화 방법인 Krylov Subspace Descent (KSD)를 제안한다. KSD는 양의 준정의 헤시안 근사나 덤핑 파rameter 조정이 필요 없이, Hessian Free (HF), L-BFGS, SGD보다 더 빠른 수렴 속도와 더 나은 일반화 성능을 달성한다.

ABSTRACT

In this paper, we propose a second order optimization method to learn models where both the dimensionality of the parameter space and the number of training samples is high. In our method, we construct on each iteration a Krylov subspace formed by the gradient and an approximation to the Hessian matrix, and then use a subset of the training data samples to optimize over this subspace. As with the Hessian Free (HF) method of [7], the Hessian matrix is never explicitly constructed, and is computed using a subset of data. In practice, as in HF, we typically use a positive definite substitute for the Hessian matrix such as the Gauss-Newton matrix. We investigate the effectiveness of our proposed method on deep neural networks, and compare its performance to widely used methods such as stochastic gradient descent, conjugate gradient descent and L-BFGS, and also to HF. Our method leads to faster convergence than either L-BFGS or HF, and generally performs better than either of them in cross-validation accuracy. It is also simpler and more general than HF, as it does not require a positive semi-definite approximation of the Hessian matrix to work well nor the setting of a damping parameter. The chief drawback versus HF is the need for memory to store a basis for the Krylov subspace.

연구 동기 및 목표

대규모 훈련 데이터를 가진 고차원 비볼록 딥러닝 문제를 위한 더 견고하고 일반적인 제2차 최적화 방법을 개발하기 위해.
헤시안 프리 (HF) 최적화에서 요구되는 헤시안 근사의 양의 준정의성과 히ュ리스틱한 덤핑 파rameter 조정이 필요 없도록 하기 위해.
SGD, L-BFGS, HF와 같은 기존 방법들보다 딥 네트워크 훈련에서 수렴 속도와 일반화 성능을 향상시키기 위해.
고급 제2차 최적화 방법인 KSD가 딥 네트워크에서 사전 훈련이 필요 없음을 입증할 수 있는지 조사하기 위해.
다양한 딥러닝 작업에서 헤시안과 가우스-뉴턴 근사법을 사용한 KSD의 효과성을 평가하기 위해.

제안 방법

KSD는 기울기와 연속적인 헤시안-벡터 곱으로 생성된 크릴로프 부분공간을 구성한다: $\text{span}(\mathbf{g}_m, \mathbf{H}_m\mathbf{g}_m, \dots, \mathbf{H}_m^{K-1}\mathbf{g}_m)$, 여기서 $K$는 고정되어 있다 (예: 20 또는 80).
각 반복마다, 목적함수와 그 도함수 계산을 위해 훈련 데이터의 부분집합을 사용하여 크릴로프 부분공간 내에서 BFGS 최적화를 수행한다.
헤시안-벡터 곱은 명시적인 헤시안 행렬 생성을 피하기 위해 페럴무트 기법을 효율적으로 사용하여 계산한다.
필요한 경우, 헤시안의 양의 정의 대체로 가우스-뉴턴 행렬을 사용하여, 부정정 헤시안이 존재하더라도 안정적인 최적화를 가능하게 한다.
알고리즘은 크릴로프 부분공간 내에서 최적의 정규화 경로를 암묵적으로 선택함으로써, 레벤버그-마르카르트 덤핑이 필요 없도록 한다.
기울기와 헤시안-벡터 곱을 포함한 모든 계산은 메모리와 계산 오버헤드를 줄이기 위해 미니배치 데이터를 사용하여 GPU에서 수행된다.

실험 결과

연구 질문

RQ1명시적인 헤시안 역행렬 계산과 덤핑 파arameter 조정이 없는 제2차 최적화 방법이, 딥러닝 훈련에서 헤시안 프리 (HF)와 L-BFGS를 초월할 수 있는가?
RQ2Krylov Subspace Descent는 표준 딥러닝 벤치마크에서 HF와 L-BFGS보다 더 빠른 수렴 속도와 더 나은 일반화 성능을 보일 수 있는가?
RQ3과적합이 지배적인 문제가 아닐 경우, 고급 제2차 최적화 방법인 KSD를 사용할 때 사전 훈련이 필요할까?
RQ4헤시안이 양의 준정의가 아닐 경우, 가우스-뉴턴 행렬과 실제 헤시안을 사용했을 때 KSD의 성능은 어떻게 되는가?
RQ5HF에서 요구되는 구조적 덤핑이 필요 없이, KSD는 순환 신경망에 효과적으로 적용될 수 있는가?

주요 결과

모든 평가된 데이터셋, 즉 CURVES, MNIST, Aurora, Starcraft에서 KSD는 Hessian Free (HF)와 L-BFGS보다 더 빠른 수렴 속도를 보였다.
MNIST 분류 작업에서 KSD는 교차검증 오차 1.70%를 달성했고, HF는 2.01%였으며, 둘 다 훈련 오차가 0%였다.
Aurora 음성인식 작업에서 KSD는 교차검증 오차를 HF의 8.7%에서 8.1%로 감소시켰고, 훈련을 3.3배 더 빠르게 완료했다.
CURVES 데이터셋에서 KSD는 교차검증 오차를 0.25에서 0.19로 감소시키며, HF보다 20%의 시간으로 훈련을 완료했다.
헤시안 대신 가우스-뉴턴 행렬을 사용했을 때 성능 저하가 없었고, 헤시안이 양의 준정의가 아니더라도 안정적으로 작동했다.
사전 훈련은 KSD가 모든 작업에서 불필요했고, MNIST를 제외한 모든 경우에서 성능 향상이 없었으며, 이는 KSD가 많은 딥러닝 시나리오에서 사전 훈련이 필요 없음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.