QUICK REVIEW

[논문 리뷰] Practical Quasi-Newton Methods for Training Deep Neural Networks

Donald Goldfarb, Yi Ren|arXiv (Cornell University)|2020. 06. 16.

Stochastic Gradient Optimization Techniques참고 문헌 43인용 수 39

한 줄 요약

이 논문은 Kronecker 팩토링된 블록 대각 BFGS/L-BFGS 업데이트와 이중 감쇠 체계를 사용하여 심층 신경망(DNN)을 훈련하기 위한 실용적인 확률적 준-뉴턴 방법을 개발하며, KFAC 및 1차 방법과 경쟁력 있거나 우수한 성능을 달성한다.

ABSTRACT

We consider the development of practical stochastic quasi-Newton, and in particular Kronecker-factored block-diagonal BFGS and L-BFGS methods, for training deep neural networks (DNNs). In DNN training, the number of variables and components of the gradient $n$ is often of the order of tens of millions and the Hessian has $n^2$ elements. Consequently, computing and storing a full $n imes n$ BFGS approximation or storing a modest number of (step, change in gradient) vector pairs for use in an L-BFGS implementation is out of the question. In our proposed methods, we approximate the Hessian by a block-diagonal matrix and use the structure of the gradient and Hessian to further approximate these blocks, each of which corresponds to a layer, as the Kronecker product of two much smaller matrices. This is analogous to the approach in KFAC, which computes a Kronecker-factored block-diagonal approximation to the Fisher matrix in a stochastic natural gradient method. Because the indefinite and highly variable nature of the Hessian in a DNN, we also propose a new damping approach to keep the upper as well as the lower bounds of the BFGS and L-BFGS approximations bounded. In tests on autoencoder feed-forward neural network models with either nine or thirteen layers applied to three datasets, our methods outperformed or performed comparably to KFAC and state-of-the-art first-order stochastic methods.

연구 동기 및 목표

심층 신경망(DNN) 훈련에서 차원 증가에 따라 2차 정보의 사용의 필요성을 동기화한다.
Hessian을 근사하는 확장 가능한 Kronecker 팩토링 블록 대각 BFGS/L-BFGS 업데이트를 제안한다.
비선형 DNN에서 양의 결정성 유지 및 고유값 변화의 상한을 보장하기 위한 감쇠 전략을 개발한다.
계층별 Hessian 근사를 위한 Hessian-action BFGS와 특이점 처리용 LM 감쇠를 도입한다.
제안된 확률적 준-뉴턴 방법에 대한 수렴 보장을 제공하고 DNN에서의 실험적 성능을 보여준다.

제안 방법

Hessian을 각 블록이 한 계층에 대응하는 블록 대각 행렬로 표현하고 각 블록을 두 개의 더 작은 행렬(A_l 및 G_l)의 Kronecker 곱으로 근사한다.
H_g^l의 역 Hessian 블록을 네거티브 BFGS 또는 L-BFGS로 h_l에 대한 그래디언트에 대해 업데이트하여 양의 결정성을 보장한다.
A_l 블록은 Hessian-action BFGS로 LM 감쇠 항을 사용하여 잠재적 특이점을 처리하며, 예를 들어 A_l^{LM} = A_l + λ_A I로 정의한다.
업데이트를 결합하여 W_l^+의 스텝을 vec(W_l^+) − vec(W_l) = −α (H_g^l ⊗ H_a^l) vec(Ẽ∇f_l)로 구성하고 Hessenberg 구조화된(Kronecker) 예비 계산으로 적용한다.
이중 감쇠(DD) 스킴을 도입하여 y^T H y / s^T y 및 s^T s / s^T y 비율을 모두 한계로 삼아 BFGS 업데이트의 안정성을 확립한다.
확률적 준-뉴턴 프레임워크 내에서 수렴 분석을 제공하고 GPU에서의 효율성을 위한 비루프 L-BFGS 구현에 대해 논의한다.

실험 결과

연구 질문

RQ1확층별 Kronecker 구조를 활용함으로써 대규모 DNN 훈련을 위한 확률적 준-뉴턴 방법을 실용적으로 만들 수 있는가?
RQ2이중 감쇠 체계가 비선형적 확률적 훈련 설정에서 양의 결정성과 고윳값 변화의 상한을 보장하는가?
RQ3K-BFGS 및 K-BFGS(L)이 표준 자동인코더 벤치마크에서 KFAC 및 1차 방법과 비교하여 훈련 효율성 및 일반화에 어떤 차이를 보이는가?
RQ4표준 확률적 최적화 가정 하에서 Kronecker 팩토링된 확률적 준-뉴턴 방법의 수렴 거동은 어떠한가?

주요 결과

K-BFGS 및 K-BFGS(L)은 계층별 Kronecker 분해 덕분에 저장소 및 각 반복 비용이 1차 방법과 유사하면서도 2차 정보를 제공한다.
K-BFGS/L은 학습 및 테스트 성능이 1차 방법에 비해 우수하거나 KFAC보다 많은 경우에 경쟁력이 있으며, 일부 경우에서 우수하다.
A_l 블록에 대한 Hessian-action BFGS와 LM 감쇠 조합은 A_l이 특이하거나 조건수가 좋지 않아도 안정적인 업데이트를 제공한다.
이중 감쇠 절차는 양의 결정성과 고윳값의 경계 조건을 유지하여 확률적 비선형 최적화에서의 강건성을 향상시킨다.
MNIST, FACES, CURVES에 대한 실험은 KFAC 및 1차 방법에 비해 학습 손실 및 테스트 오류 면에서 우수하거나 동등한 성능을 보이며, 일반화도 양호하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.