Skip to main content
QUICK REVIEW

[논문 리뷰] Practical Gauss-Newton Optimisation for Deep Learning

Aleksandar Botev, Hippolyt Ritter|arXiv (Cornell University)|2017. 06. 12.
Blind Source Separation Techniques인용 수 34
한 줄 요약

이 논문은 깊이 있는 학습을 위한 실용적인 가우스-뉴턴 최적화 방법인 KFRA를 제안한다. 이 방법은 재귀적이고 블록 대각 행렬로 구성된 가우스-뉴턴 행렬의 근사치를 사용하여 효율적인 이阶 최적화를 가능하게 한다. 기본 하이퍼파rameter를 사용해도 최신의 일阶 최적화 방법인 Adam과 경쟁 가능한 성능을 달성하며, KFAC보다 정확한 가우스-뉴턴 업데이트에 더 잘 부합함을 보였다.

ABSTRACT

We present an efficient block-diagonal ap- proximation to the Gauss-Newton matrix for feedforward neural networks. Our result- ing algorithm is competitive against state- of-the-art first order optimisation methods, with sometimes significant improvement in optimisation performance. Unlike first-order methods, for which hyperparameter tuning of the optimisation parameters is often a labo- rious process, our approach can provide good performance even when used with default set- tings. A side result of our work is that for piecewise linear transfer functions, the net- work objective function can have no differ- entiable local maxima, which may partially explain why such transfer functions facilitate effective optimisation.

연구 동기 및 목표

  • 전체 헤시안 행렬 계산이 계산적으로 불가능한 문제를 피하면서도 효율적인 이阶 최적화 방법을 개발하는 것.
  • SGD나 Adam과 같은 일阶 최적화 방법에서의 하이퍼파rameter 민감도 문제를 해결하여 최적 성능를 얻기 위해 광범위한 튜닝이 필요하지 않도록 하는 것.
  • 명시적인 헤시안 저장 또는 계산 없이 곡률 정보를 활용하는 확장 가능한 이阶 최적화 접근법을 제공하는 것.
  • 조각별 선형 활성화 함수를 가진 네트워크에서의 미분 가능한 국소 최대값이 존재하지 않는 것과 가우스-뉴턴 근사치 간의 이론적 및 실증적 연결을 수립하는 것.

제안 방법

  • 방법은 신경망의 각 레이어의 가중치에 대응하는 블록 대각 행렬 근사치를 재귀적으로 계산한다.
  • 각 블록은 활성화(입력 통계)에서 유도된 행렬과 손실의 이阶 도함수(예비 활성화의 헤시안)에서 유도된 행렬의 크로네커 tích으로 근사된다.
  • 알고리즘은 확장된 자동 미분를 통해 단일 역전파 단계에서 기울기와 곡률 근사치를 동시에 계산하며, 헤시안-벡터 곱을 위한 R-연산자도 포함된다.
  • 역행렬의 안정성과 일반화 성능 향상을 위해 티호노프 유사 항(η 및 γ)을 통해 정규화를 적용한다.
  • 표준 딥 러닝 프레임워크와의 호환성을 고려하여 기존 백프로파게이션 파이프라인과 자연스럽게 통합되도록 설계되었다.
  • 이 방법은 지수족 모델에 대해 KFAC와 동일한 결과를 보이지만, 피셔 정보 행렬이 아닌 가우스-뉴턴 행렬을 근사하는 데서 차이를 보인다.

실험 결과

연구 질문

  • RQ1피드포워드 네트워크에서 단일 역전파 단계 내에서 블록 대각 행렬로 구성된 가우스-뉴턴 행렬의 근사치를 효율적으로 계산할 수 있는가?
  • RQ2이 근사치가 일阶 최적화 방법인 Adam과 비교해 광범위한 하이퍼파rameter 튜닝 없이도 성능을 뛰어나게 할 수 있는가?
  • RQ3조각별 선형 활성화 함수는 효과적인 최적화를 어떻게 가능하게 하는가? 이는 손실 표면에서의 미분 가능한 엄격한 국소 최대값이 존재하지 않는 것과 관련이 있는가?
  • RQ4기존의 KFAC와 비교해 제안된 방법이 정확한 가우스-뉴턴 업데이트와 얼마나 잘 부합하는가?
  • RQ5곡률 근사치의 정확도가 최적화 수렴성과 일반화 성능에 어떤 영향을 미치는가?

주요 결과

  • 제안된 KFRA 방법은 CURVES, FACES, MNIST와 같은 표준 벤치마크에서 경쟁 가능한 학습 성능을 달성하며, 학습률 스케줄링이나 하이퍼파rameter 튜닝 없이도 잘 튜닝된 일阶 최적화 방법인 Adam과 비슷하거나 뛰어난 성능을 보였다.
  • KFAC보다 훨씬 더 정확한 정확한 가우스-뉴턴 업데이트와의 부합도를 보였으며, 특히 초기 학습 단계에서 뚜렷한 우수성을 보였다. 이는 더 정확한 곡률 근사치를 제공함을 시사한다.
  • 조각별 선형 활성화 함수를 가진 네트워크의 경우 손실 표면에 미분 가능한 엄격한 국소 최대값이 존재하지 않으며, 이는 그들의 유리한 최적화 행동을 설명할 수 있다.
  • 지수족 모델이 아닌 모델에서는 블록 대각 가우스-뉴턴 근사치가 KFAC의 피셔 근사치보다 더 정확하며, 두 행렬이 다를 수 있음을 보였다.
  • 기울기와 곡률 근사치를 동시에 계산하는 단일 역전파 단계를 통해 효율적인 구현이 가능해져, 대규모 딥 네트워크에 대한 이阶 최적화를 실용적으로 가능하게 하였다.
  • 실증 결과에 따르면, 특히 MNIST와 CURVES에서는 전체 가우스-뉴턴 행렬과의 부합도가 높은 편이었으며, FACES에서는 공액 기울기 해법에서의 불안정성으로 인해 약간의 성능 저하가 있었지만 전체적으로 높은 정확도를 유지하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.