QUICK REVIEW

[論文レビュー] PyHessian: Neural Networks Through the Lens of the Hessian

Zhewei Yao, Amir Gholami|arXiv (Cornell University)|Dec 16, 2019

Stochastic Gradient Optimization Techniques参考文献 54被引用数 33

ひとこと要約

PyHessian は、深層ネットのHessianベースの統計量（トップ固有値、トレース、スペクトル密度）を計算するスケーラブルなオープンソースフレームワークで、損失ランドスケープのトポロジーやバッチ正規化と残差接続などのアーキテクチャ的効果の分析を可能にします。本論文はこのツールを用いて、BNと残差がCIFAR-10/100全体の訓練可能性に与える時には微妙で、時には逆説的な影響を明らかにします。

ABSTRACT

We present PYHESSIAN, a new scalable framework that enables fast computation of Hessian (i.e., second-order derivative) information for deep neural networks. PYHESSIAN enables fast computations of the top Hessian eigenvalues, the Hessian trace, and the full Hessian eigenvalue/spectral density, and it supports distributed-memory execution on cloud/supercomputer systems and is available as open source. This general framework can be used to analyze neural network models, including the topology of the loss landscape (i.e., curvature information) to gain insight into the behavior of different models/optimizers. To illustrate this, we analyze the effect of residual connections and Batch Normalization layers on the trainability of neural networks. One recent claim, based on simpler first-order analysis, is that residual connections and Batch Normalization make the loss landscape smoother, thus making it easier for Stochastic Gradient Descent to converge to a good solution. Our extensive analysis shows new finer-scale insights, demonstrating that, while conventional wisdom is sometimes validated, in other cases it is simply incorrect. In particular, we find that Batch Normalization does not necessarily make the loss landscape smoother, especially for shallower networks.

研究の動機と目的

全 Hessian を形成せずに、大規模なニューラルネットワークのHessian情報を計算するスケーラブルなツールを提供する。
Hessianベースの解析を用いて、Batch Normalization（バッチ正規化）や残差接続などのアーキテクチャ要素が訓練可能性と損失ランドスケープにどのような影響を与えるかを研究する。
モデルの深さが異なる場合に、BNが損失ランドスケープを滑らかにするのか、または鋭くするのかについて経験的洞察を提供する。
クラウドやスーパーコンピュータ上で分析を可能にする分散メモリ実行を実証する。

提案手法

バックプロパゲーションベースのマトベクタ積を用いて明示的なHessianの形成を避けるため、Hessian情報を計算する。
Hutchinsonのランダム化手法を用いたHessianのトレースを、Hessian matvecを用いて推定する。
Stochastic Lanczos Quadrature (SLQ)とLanczos反復を用いて、完全なHessianの経験スペクトル密度を計算する。
CIFAR-10/100上で、Batch Normalizationの有無および残差接続を備えた/備えないResNet系のトップHessian固有値、トレース、ESDを分析する。
Hessian固有ベクトルに沿ってパラメータを摂動させることによる、段階的およびパラメトリックな損失ランドスケープの視覚化を提供する。

実験結果

リサーチクエスチョン

RQ1訓練中、Batch Normalizationと残差接続はHessianスペクトル（トップ固有値、トレース、ESD）にどのような影響を与えるか？
RQ2BNまたは残差接続を削除すると、異なるネットワーク深さにわたって損失ランドスケープが滑らかになるのか鋭くなるのか？
RQ3Hessianベースの診断は、訓練可能性と汎化に対するアーキテクチャ要素の段階的かつ細粒度の影響を明らかにできるか？
RQ4PyHessianは、クラウドまたはHPCシステム上で分散メモリを使用して最先端の深層ネットに対してスケーラブルですか？

主な発見

BNを取り除くと、特に深いモデルでHessianスペクトルが急速に増大する可能性があり、ResNetモデルの後半段階ではBNがより重要になる。
BNを取り除くと損失ランドスケープが一様に滑らかになるとは限らない。浅いネットワークではBNを取り除くとHessianスペクトルがより平坦になる場合がある一方、深いネットワークではスペクトルが鋭くなる。
残差接続を削除すると一般にトップ固有値、トレース、およびESDのサポート範囲が増大し、損失ランドスケープがざらつくことを示す。
深いネットワークにおけるBN不在は、高い訓練損失と一般化性能の低下を伴う鋭い局所極小値への収束を招く可能性がある一方、浅いモデルではこの影響はより顕著ではない。
段階分析では、後半段階でのBNの除去がHessian指標と汎化性能により強く影響し、Hessianの変化と精度低下を結びつける。
PyHessianは、全Hessianを形成することなく効率的で分散型のHessian解析を可能にし、BNと残差に関するアーキテクチャ設計の問いに洞察を提供します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。