QUICK REVIEW

[논문 리뷰] Practical Gauss-Newton Optimisation for Deep Learning

Aleksandar Botev, Hippolyt Ritter|arXiv (Cornell University)|2017. 06. 12.

Blind Source Separation Techniques인용 수 34

한 줄 요약

이 논문은 깊이 있는 학습을 위한 실용적인 가우스-뉴턴 최적화 방법인 KFRA를 제안한다. 이 방법은 재귀적이고 블록 대각 행렬로 구성된 가우스-뉴턴 행렬의 근사치를 사용하여 효율적인 이阶 최적화를 가능하게 한다. 기본 하이퍼파rameter를 사용해도 최신의 일阶 최적화 방법인 Adam과 경쟁 가능한 성능을 달성하며, KFAC보다 정확한 가우스-뉴턴 업데이트에 더 잘 부합함을 보였다.

ABSTRACT

We present an efficient block-diagonal ap- proximation to the Gauss-Newton matrix for feedforward neural networks. Our result- ing algorithm is competitive against state- of-the-art first order optimisation methods, with sometimes significant improvement in optimisation performance. Unlike first-order methods, for which hyperparameter tuning of the optimisation parameters is often a labo- rious process, our approach can provide good performance even when used with default set- tings. A side result of our work is that for piecewise linear transfer functions, the net- work objective function can have no differ- entiable local maxima, which may partially explain why such transfer functions facilitate effective optimisation.

연구 동기 및 목표

전체 헤시안 행렬 계산이 계산적으로 불가능한 문제를 피하면서도 효율적인 이阶 최적화 방법을 개발하는 것.
SGD나 Adam과 같은 일阶 최적화 방법에서의 하이퍼파rameter 민감도 문제를 해결하여 최적 성능를 얻기 위해 광범위한 튜닝이 필요하지 않도록 하는 것.
명시적인 헤시안 저장 또는 계산 없이 곡률 정보를 활용하는 확장 가능한 이阶 최적화 접근법을 제공하는 것.
조각별 선형 활성화 함수를 가진 네트워크에서의 미분 가능한 국소 최대값이 존재하지 않는 것과 가우스-뉴턴 근사치 간의 이론적 및 실증적 연결을 수립하는 것.

제안 방법

방법은 신경망의 각 레이어의 가중치에 대응하는 블록 대각 행렬 근사치를 재귀적으로 계산한다.
각 블록은 활성화(입력 통계)에서 유도된 행렬과 손실의 이阶 도함수(예비 활성화의 헤시안)에서 유도된 행렬의 크로네커 tích으로 근사된다.
알고리즘은 확장된 자동 미분를 통해 단일 역전파 단계에서 기울기와 곡률 근사치를 동시에 계산하며, 헤시안-벡터 곱을 위한 R-연산자도 포함된다.
역행렬의 안정성과 일반화 성능 향상을 위해 티호노프 유사 항(η 및 γ)을 통해 정규화를 적용한다.
표준 딥 러닝 프레임워크와의 호환성을 고려하여 기존 백프로파게이션 파이프라인과 자연스럽게 통합되도록 설계되었다.
이 방법은 지수족 모델에 대해 KFAC와 동일한 결과를 보이지만, 피셔 정보 행렬이 아닌 가우스-뉴턴 행렬을 근사하는 데서 차이를 보인다.

실험 결과

연구 질문

RQ1피드포워드 네트워크에서 단일 역전파 단계 내에서 블록 대각 행렬로 구성된 가우스-뉴턴 행렬의 근사치를 효율적으로 계산할 수 있는가?
RQ2이 근사치가 일阶 최적화 방법인 Adam과 비교해 광범위한 하이퍼파rameter 튜닝 없이도 성능을 뛰어나게 할 수 있는가?
RQ3조각별 선형 활성화 함수는 효과적인 최적화를 어떻게 가능하게 하는가? 이는 손실 표면에서의 미분 가능한 엄격한 국소 최대값이 존재하지 않는 것과 관련이 있는가?
RQ4기존의 KFAC와 비교해 제안된 방법이 정확한 가우스-뉴턴 업데이트와 얼마나 잘 부합하는가?
RQ5곡률 근사치의 정확도가 최적화 수렴성과 일반화 성능에 어떤 영향을 미치는가?

주요 결과

제안된 KFRA 방법은 CURVES, FACES, MNIST와 같은 표준 벤치마크에서 경쟁 가능한 학습 성능을 달성하며, 학습률 스케줄링이나 하이퍼파rameter 튜닝 없이도 잘 튜닝된 일阶 최적화 방법인 Adam과 비슷하거나 뛰어난 성능을 보였다.
KFAC보다 훨씬 더 정확한 정확한 가우스-뉴턴 업데이트와의 부합도를 보였으며, 특히 초기 학습 단계에서 뚜렷한 우수성을 보였다. 이는 더 정확한 곡률 근사치를 제공함을 시사한다.
조각별 선형 활성화 함수를 가진 네트워크의 경우 손실 표면에 미분 가능한 엄격한 국소 최대값이 존재하지 않으며, 이는 그들의 유리한 최적화 행동을 설명할 수 있다.
지수족 모델이 아닌 모델에서는 블록 대각 가우스-뉴턴 근사치가 KFAC의 피셔 근사치보다 더 정확하며, 두 행렬이 다를 수 있음을 보였다.
기울기와 곡률 근사치를 동시에 계산하는 단일 역전파 단계를 통해 효율적인 구현이 가능해져, 대규모 딥 네트워크에 대한 이阶 최적화를 실용적으로 가능하게 하였다.
실증 결과에 따르면, 특히 MNIST와 CURVES에서는 전체 가우스-뉴턴 행렬과의 부합도가 높은 편이었으며, FACES에서는 공액 기울기 해법에서의 불안정성으로 인해 약간의 성능 저하가 있었지만 전체적으로 높은 정확도를 유지하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.