Skip to main content
QUICK REVIEW

[논문 리뷰] Fast Evaluation and Approximation of the Gauss-Newton Hessian Matrix for the Multilayer Perceptron

Chao Chen, Severin Reiz|arXiv (Cornell University)|2019. 01. 01.
Neural Networks and Applications인용 수 2
한 줄 요약

이 논문은 다층퍼셉트론에 대한 가우스-뉴턴 해시안(GNH) 행렬의 평가에 있어 계산 비용을 $O(Nn)$에서 $O(n + d/\theta^2)$로 감소시키는 빠른 샘플링 알고리즘을 제안한다. 이는 효율적인 계층 행렬($\mathcal{H}$-행렬) 근사화를 가능하게 하며, $\mathcal{O}(N r_o)$ 메모리와 $\mathcal{O}(N r_o^2)$의 분해 작업을 통해 낮은 질서의 구조를 효과적으로 활용한다. 이는 신경망 학습에서 선형 시스템 해법과 고유값 문제의 해를 매우 빠르게 제공한다.

ABSTRACT

We introduce a fast algorithm for entry-wise evaluation of the Gauss-Newton Hessian (GNH) matrix for the multilayer perceptron. The algorithm has a precomputation step and a sampling step. While it generally requires $O(Nn)$ work to compute an entry (and the entire column) in the GNH matrix for a neural network with $N$ parameters and $n$ data points, our fast sampling algorithm reduces the cost to $O(n+d/\epsilon^2)$ work, where $d$ is the output dimension of the network and $\epsilon$ is a prescribed accuracy (independent of $N$). One application of our algorithm is constructing the hierarchical-matrix (\hmatrix{}) approximation of the GNH matrix for solving linear systems and eigenvalue problems. While it generally requires $O(N^2)$ memory and $O(N^3)$ work to store and factorize the GNH matrix, respectively. The \hmatrix{} approximation requires only $\bigO(N r_o)$ memory footprint and $\bigO(N r_o^2)$ work to be factorized, where $r_o \ll N$ is the maximum rank of off-diagonal blocks in the GNH matrix. We demonstrate the performance of our fast algorithm and the \hmatrix{} approximation on classification and autoencoder neural networks.

연구 동기 및 목표

  • 다층퍼셉트론에서 가우스-뉴턴 해시안(GNH) 행렬의 항별 평가에 있어 계산 비용을 감소시키는 것.
  • 대규모 선형 대수 문제를 위한 GNH 행렬에 대한 효율적인 계층 행렬($\mathcal{H}$-행렬) 근사화를 가능하게 하는 것.
  • GNH 관련 시스템과 고유값 문제를 해결하는 데 있어 낮은 메모리 및 계산 복잡도를 달성하는 것.
  • 분류 및 오토에코더 신경망에서 실용적인 성능을 입증하는 것.

제안 방법

  • GNH 행렬 원소 평가를 위한 이중 단계 알고리즘: 사전 계산 단계와 샘플링 단계를 도입한다.
  • 랜덤 샘플링을 활용하여 $\epsilon$ 이내의 오차로 GNH 원소를 근사화하며, 이는 매개변수 수 $N$과 무관하다.
  • GNH 행렬의 비대각 블록에서 나타나는 낮은 질서의 구조를 활용하여 $\mathcal{H}$-행렬 근사를 구성한다.
  • $\mathcal{H}$-행렬 형식을 통해 메모리 사용량을 $O(N^2)$에서 $\mathcal{O}(N r_o)$로 감소시키며, 여기서 $r_o \ll N$은 비대각 블록의 최대 질서이다.
  • GNH 행렬의 분해 작업을 $O(N^3)$에서 $\mathcal{O}(N r_o^2)$로 감소시키기 위해 $\mathcal{H}$-행렬 구조를 활용한다.
  • 출력 차원 $d$와 정확도 파라미터 $\epsilon$을 활용하여 샘플링 복잡도 $O(n + d/\epsilon^2)$를 제어한다.

실험 결과

연구 질문

  • RQ1가우스-뉴턴 해시안 행렬은 매개변수 수 $N$과 무관한 복잡도로 항별 평가가 가능한가?
  • RQ2통제 가능한 정확도 $\epsilon$으로 GNH 행렬 원소를 샘플링하기 위해 필요한 최소한의 계산 비용은 얼마인가?
  • RQ3대규모 신경망을 위한 GNH 행렬에 대해 $\mathcal{H}$-행렬 근사를 효율적으로 구성할 수 있는가?
  • RQ4완전한 GNH 저장 및 분해 대비 $\mathcal{H}$-행렬 근사화로 인한 메모리 및 계산 절감 효과는 무엇인가?
  • RQ5제안된 샘플링 방법은 분류 및 오토에코더 네트워크에서 실질적으로 어떻게 확장되는가?

주요 결과

  • 제안된 샘플링 알고리즘은 GNH 원소 평가 비용을 $O(n + d/\epsilon^2)$로 감소시켜 $N$과 무관하게 확장성 향상을 크게 이룬다.
  • $\mathcal{H}$-행렬 근사화된 GNH 행렬은 $r_o \ll N$인 비대각 블록의 최대 질서를 고려해 $\mathcal{O}(N r_o)$ 메모리만을 요구한다.
  • GNH 행렬의 분해는 $\mathcal{O}(N r_o^2)$ 작업으로 수행되며, 기존의 $O(N^3)$ 비용을 크게 감소시킨다.
  • 이 방법은 대규모 신경망에서 GNH 행렬을 포함하는 선형 시스템과 고유값 문제의 효율적 해법을 가능하게 한다.
  • 실증 결과는 빠른 샘플링과 $\mathcal{H}$-행렬 근사화를 통해 분류 및 오토에코더 신경망 작업에서 성능 향상이 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.