Skip to main content
QUICK REVIEW

[論文レビュー] Fast Evaluation and Approximation of the Gauss-Newton Hessian Matrix for the Multilayer Perceptron

Chao Chen, Severin Reiz|arXiv (Cornell University)|Jan 1, 2019
Neural Networks and Applications被引用数 2
ひとこと要約

本稿では、多層パーセプトロンにおけるガウス・ニュートン・ヘッシアン(GNH)行列の評価にかかる計算コストを、各要素あたり $O(Nn)$ から $O(n + d/\theta^2)$ に低減する高速なサンプリングアルゴリズムを提示する。これにより、$Θ$-行列($Θ$-行列)近似が可能となり、$Θ$-行列近似により低ランク構造を効果的に活用し、$Θ$-行列のメモリ使用量を $Θ(N r_o)$、因子分解作業量を $Θ(N r_o^2)$ に抑える。このアプローチにより、ニューラルネットワーク学習における線形方程式系の解法や固有値問題の高速化が実現される。

ABSTRACT

We introduce a fast algorithm for entry-wise evaluation of the Gauss-Newton Hessian (GNH) matrix for the multilayer perceptron. The algorithm has a precomputation step and a sampling step. While it generally requires $O(Nn)$ work to compute an entry (and the entire column) in the GNH matrix for a neural network with $N$ parameters and $n$ data points, our fast sampling algorithm reduces the cost to $O(n+d/\epsilon^2)$ work, where $d$ is the output dimension of the network and $\epsilon$ is a prescribed accuracy (independent of $N$). One application of our algorithm is constructing the hierarchical-matrix (\hmatrix{}) approximation of the GNH matrix for solving linear systems and eigenvalue problems. While it generally requires $O(N^2)$ memory and $O(N^3)$ work to store and factorize the GNH matrix, respectively. The \hmatrix{} approximation requires only $\bigO(N r_o)$ memory footprint and $\bigO(N r_o^2)$ work to be factorized, where $r_o \ll N$ is the maximum rank of off-diagonal blocks in the GNH matrix. We demonstrate the performance of our fast algorithm and the \hmatrix{} approximation on classification and autoencoder neural networks.

研究の動機と目的

  • 多層パーセプトロンにおけるガウス・ニュートン・ヘッシアン(GNH)行列の要素ごとの評価にかかる計算コストを低減すること。
  • 大規模な線形代数問題に適した、GNH行列の効率的な階層的行列($Θ$-行列)近似を可能にすること。
  • GNH関連の線形方程式系や固有値問題の解法において、低メモリおよび低計算量の複雑さを達成すること。
  • 分類およびオートエンコーダーのニューラルネットワークにおいて、実用的な性能を示すこと。

提案手法

  • GNH行列要素のための2段階アルゴリズム(事前計算ステップとサンプリングステップ)を導入する。
  • ランダム化サンプリングを用いて、パrameter数 $N$ に依存しない精度 $\epsilon$ でGNH要素を近似する。
  • GNH行列の非対角ブロックに見られる低ランク構造を活用し、$Θ$-行列近似を構築する。
  • $Θ$-行列形式を用いて、GNH行列のメモリ使用量を $O(N^2)$ から $Θ(N r_o)$ に削減する。ここで $r_o \ll N$ は非対角ブロックの最大ランクである。
  • $Θ$-行列構造を用いて、GNH行列の因子分解作業量を $O(N^3)$ から $Θ(N r_o^2)$ に高速化する。
  • 出力次元 $d$ と精度パラメータ $\epsilon$ を用いて、サンプリングの複雑さ $O(n + d/\epsilon^2)$ を制御する。

実験結果

リサーチクエスチョン

  • RQ1ガウス・ニュートン・ヘッシアン行列は、パrameter数 $N$ に依存しない複雑さで要素ごとに評価可能か?
  • RQ2制御された精度 $\epsilon$ でGNH行列の要素をサンプリングするために必要な最小の計算コストは何か?
  • RQ3大規模なニューラルネットワークに対して、GNH行列の$Θ$-行列近似を効率的に構築可能か?
  • RQ4フルGNH保存や因子分解と比較して、$Θ$-行列近似によるメモリおよび計算コストの削減はどの程度か?
  • RQ5提案されたサンプリング手法は、分類およびオートエンコーダーのネットワークにおいて実際のスケーリング特性を示すか?

主な発見

  • 提案されたサンプリングアルゴリズムにより、GNH要素評価コストが $O(n + d/\epsilon^2)$ に低減され、$N$ に依存しないため、スケーラビリティが著しく向上する。
  • $Θ$-行列近似によるGNH行列のメモリ使用量は、$\mathcal{O}(N r_o)$ に抑えられ、ここで $r_o \ll N$ は非対角ブロックの最大ランクである。
  • $Θ$-行列構造を用いたGNH行列の因子分解は、$\mathcal{O}(N r_o^2)$ の作業量で達成され、標準的な $O(N^3)$ のコストが大幅に削減される。
  • 本手法により、大規模なニューラルネットワークにおけるGNH行列を含む線形方程式系や固有値問題の効率的解法が可能になる。
  • 実験的結果により、高速なサンプリングと$Θ$-行列近似を用いた分類およびオートエンコーダーのニューラルネットワークタスクにおいて、性能向上が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。