QUICK REVIEW

[논문 리뷰] A Kronecker-factored approximate Fisher matrix for convolution layers

Roger Grosse, James Martens|arXiv (Cornell University)|2016. 02. 03.

Stochastic Gradient Optimization Techniques참고 문헌 40인용 수 31

한 줄 요약

이 논문은 백프로파게이션된 도함수의 구조적 확률 모델을 활용하여 합성곱 신경망을 위한 피셔 정보 행렬의 계산 가능한 근사인 Kronecker Factors for Convolution (KFC)을 소개한다. 피셔 블록을 더 작은 행렬의 크로네커 tích으로 분해함으로써 KFC는 재파rameterization에 대해 불변인 효율적인 자연 경량 최적화 업데이트를 가능하게 하며, 테스트 오차가 유사하거나 더 낫거나, SGD보다 10–20배 빠른 학습 속도를 달성한다.

ABSTRACT

Second-order optimization methods such as natural gradient descent have the potential to speed up training of neural networks by correcting for the curvature of the loss function. Unfortunately, the exact natural gradient is impractical to compute for large models, and most approximations either require an expensive iterative procedure or make crude approximations to the curvature. We present Kronecker Factors for Convolution (KFC), a tractable approximation to the Fisher matrix for convolutional networks based on a structured probabilistic model for the distribution over backpropagated derivatives. Similarly to the recently proposed Kronecker-Factored Approximate Curvature (K-FAC), each block of the approximate Fisher matrix decomposes as the Kronecker product of small matrices, allowing for efficient inversion. KFC captures important curvature information while still yielding comparably efficient updates to stochastic gradient descent (SGD). We show that the updates are invariant to commonly used reparameterizations, such as centering of the activations. In our experiments, approximate natural gradient descent with KFC was able to train convolutional networks several times faster than carefully tuned SGD. Furthermore, it was able to train the networks in 10-20 times fewer iterations than SGD, suggesting its potential applicability in a distributed setting.

연구 동기 및 목표

무료한 계산 비용 없이 곡률 정보를 포착하는 스케일러블한 두 번째 차수 최적화 방법을 합성곱 신경망에 개발하기.
초기로 완전히 연결된 레이어를 위한 것으로 설계된 K-FAC 프레임워크를 가중치 공유를 갖는 합성곱 레이어로 확장하기.
일반적인 재파rameterization(예: 활성화 중심화 또는 정규화)에 대해 근사가 불변성을 유지하기.
각 업데이트의 계산 오버헤드와 통신 비용을 최소화하여 효율적인 분산 학습을 가능하게 하기.

제안 방법

백프로파게이션된 도함수가 공간적으로 상관없고 활성화가 도함수와 독립적이라고 가정하는 구조적 확률 모델을 제안한다.
공간적 통계와 채널별 통계에서 유도된 더 작은 행렬들의 크로네커 곱으로 합성곱 레이어의 피셔 정보 행렬을 모델링한다.
공간적 균일성과 상관없는 도함수를 가정하여 피셔 블록 분해를 유도하고, 인버전을 요소 인버전을 통해 효율적으로 수행할 수 있도록 한다.
결과적으로 도출된 크로네커 분해된 피셔 근사를 사용하여, 각 업데이트에서 SGD와 유사한 계산 복잡도를 갖는 자연 경량 업데이트를 계산한다.
학습 중 곡률 근사를 유지하기 위해 활성화와 기울기 통계의 경험 평균을 사용한다.
완전한 K-FAC와 유사하게 적응형 스텝 크기, 모멘타ム, 덤프링을 통합하여 수렴 성능을 향상시킨다.

실험 결과

연구 질문

RQ1가중치 공유를 갖는 합성곱 네트워크에 대해 곡률 인식 최적화 방법을 효율적으로 적용할 수 있는가?
RQ2크로네커 분해된 피셔 근사는 배치 정규화나 활성화 중심화와 같은 일반적인 재파rameterization에 대해 불변성을 유지하는가?
RQ3이 방법은 훈련 오차와 테스트 오차 측면에서 SGD보다 현저히 더 빠른 수렴을 달성할 수 있는가?
RQ4특히 반복 횟수와 통신 오버헤드 측면에서 분산 환경에서의 확장성은 어떠한가?

주요 결과

CIFAR-10 및 SVHN 벤치마크에서 KFC는 유사하거나 더 낫거나 테스트 오차에 도달하기 위해 SGD보다 10–20배 적은 반복 수를 기록했다.
CIFAR-10에서 KFC-pre는 300회 반복 만에 10% 훈련 오차를 달성했고, SGD는 6,000회 반복이 필요했으며, 이는 수렴 속도가 20배 향상된 것이다.
큰 미니배치로 학습하더라도 일반화 성능을 유지하여 분산 학습과의 호환성을 시사했다.
공분산 통계와 요소 역행렬을 매 단계가 아닌 주기적으로 업데이트해도 성능 저하가 없었으며, 이는 낮은 동기화 오버헤드를 의미한다.
배치 정규화를 사용하더라도 KFC-pre는 훈련 오차와 테스트 오차를 모두 SGD보다 더 빠르게 최적화할 수 있었으며, 이는 정규화 기법과의 상호보완적 이점을 시사한다.
KFC를 통해 계산된 자연 경량 업데이트는 활성화 중심화 및 기타 재파rameterization에 대해 불변성을 유지했으며, 바람직한 기하학적 성질을 보존했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.