Skip to main content
QUICK REVIEW

[논문 리뷰] Fast Approximate Natural Gradient Descent in a Kronecker-factored Eigenbasis

George Thomas, César Laurent|arXiv (Cornell University)|2018. 06. 11.
Advanced Neural Network Applications참고 문헌 26인용 수 37
한 줄 요약

이 논문은 KFAC보다 더 나은 곡률 추정을 가능하게 하면서도 효율적인 부분 갱신을 지원하는, 편향 행렬의 편향 행렬을 추적하는 새로운 KFAC의 근사인 EKFAC를 제안한다. EKFAC는 크로네커 분해된 고유기저에서 대각 분산을 추적한다. 실험 결과, 여러 아키텍처에서 EKFAC는 최적화 속도를 높이고 일반화 성능을 향상시켜 KFAC와 SGD보다 훈련 손실과 월클럭 타임 측면에서 뛰어난 성능을 보였다.

ABSTRACT

Optimization algorithms that leverage gradient covariance information, such as variants of natural gradient descent (Amari, 1998), offer the prospect of yielding more effective descent directions. For models with many parameters, the covariance matrix they are based on becomes gigantic, making them inapplicable in their original form. This has motivated research into both simple diagonal approximations and more sophisticated factored approximations such as KFAC (Heskes, 2000; Martens & Grosse, 2015; Grosse & Martens, 2016). In the present work we draw inspiration from both to propose a novel approximation that is provably better than KFAC and amendable to cheap partial updates. It consists in tracking a diagonal variance, not in parameter coordinates, but in a Kronecker-factored eigenbasis, in which the diagonal approximation is likely to be more effective. Experiments show improvements over KFAC in optimization speed for several deep network architectures.

연구 동기 및 목표

  • 큰 딥 네ural 네트워크에서 정확한 자연 경사 하강법을 적용하는 데 있어 편향 행렬의 막대한 크기로 인한 계산 불가능성 문제를 해결하기 위해.
  • 고유기저 변환을 사용하여 KFAC보다 더 정확한 편향 행렬 근사치를 제공함으로써 KFAC를 개선하기 위해.
  • 고유기저는 고정하고 오직 대각 분산만 갱신함으로써 곡률 추정의 효율적인 부분 갱신을 가능하게 하기 위해.
  • 크로네커 분해된 고유기저에서의 곡률 추정이 실제로 더 빠른 수렴과 더 나은 일반화를 이끌어내는지 입증하기 위해.

제안 방법

  • 방법은 매개변수 공간을 크로네커 분해된 고유기저(KFE)로 변환하여, 원래의 매개변수 대신 대각 분산에 곡률 근사를 적용한다.
  • KFAC 공분산 행렬의 고유분해를 통해 KFE를 계산하며, 이 과정을 여러 반복 동안 분할하여 비용을 분산시킨다.
  • 알고리즘은 KFE에서 대각 분산 추정치를 유지함으로써 고유기저 재계산 없이 저비용의 부분 갱신을 가능하게 한다.
  • 변환된 공간에서 적응형 대각 스케일링(RMSProp 유사)을 사용하여 전치행렬을 갱신함으로써 수렴 안정성을 향상시킨다.
  • 이 방법은 KFAC보다 편향 행렬의 프로베니우스 노름 근사치가 더 나은 것으로 수학적으로 증명된다.
  • 이 방법은 전체 갱신과 부분 갱신을 모두 지원하여 계산 비용과 추정 정확도 사이의 트레이드오���을 가능하게 한다.

실험 결과

연구 질문

  • RQ1크로네커 분해된 고유기저에서의 곡률 근사는 프로베니우스 노름 측면에서 KFAC보다 더 나은 편향 행렬 근사치를 제공할 수 있는가?
  • RQ2KFE에서 대각 분산을 추적하는 것은 기존 KFAC보다 더 효과적이고 효율적인 최적화를 가능하게 하는가?
  • RQ3KFE에서 곡률 추정의 부분 갱신은 성능을 유지하면서 계산 비용을 줄일 수 있는가?
  • RQ4EKFAC는 딥 네트워크 훈련에서 KFAC와 SGD에 비해 최적화 속도와 일반화 성능을 향상시키는가?

주요 결과

  • EKFAC는 KFE에서 고유값 보정을 통해 KFAC보다 프로베니우스 노름 측면에서 더 나은 편향 행렬 근사치를 보여주는 수학적 증명이 있다.
  • 완전 연결 오토인코더와 CIFAR-10 데이터셋에서 EKFAC는 KFAC와 모멘터럼이 있는 SGD보다 더 빠른 최적화 수렴 속도를 달성한다.
  • VGG-11과 ResNet-34에서 KFE 계산이 분할 처리될 경우, EKFAC-ra(부분 갱신 포함)는 매 에포크의 훈련 손실과 월클럭 타임 측면에서 KFAC와 SGD를 모두 능가한다.
  • EKFAC는 다양한 배치 크기에서 KFAC 및 SGD 기준선보다 낮은 검증 오차를 기록하며 강력한 일반화 성능을 유지한다.
  • EKFAC의 부분 갱신은 계산적으로 효율적이며 높은 정확도를 유지하여 대규모 훈련 환경에서의 실용적 구현을 가능하게 한다.
  • 다양한 하이퍼파ram터 설정에서 안정적인 성능을 보이며, 에포크 또는 계산 예산 기준으로 모델을 선택할 경우 EKFAC 설정이 최적의 KFAC 설정을 능가하는 경우가 자주 발생한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.