Skip to main content
QUICK REVIEW

[論文レビュー] Rethinking Parameter Counting in Deep Models: Effective Dimensionality Revisited

Wesley J. Maddox, Gregory W. Benton|arXiv (Cornell University)|Mar 4, 2020
Generative Adversarial Networks and Image Synthesis参考文献 62被引用数 28
ひとこと要約

この論文は、深層学習におけるモデルの複雑さと一般化の優れた代理指標として、単なるパラメータ数の代わりに「効果的次元(effective dimensionality)」を提案する。訓練データ上のヘッセ行列の固有値スペクトルを分析することで、パラメータ数や平坦性に基づく測定値よりも、テスト性能をよりよく追跡することが示され、ダブルデセントや深さによる幅の一般化の利点といった現象を説明する。

ABSTRACT

Neural networks appear to have mysterious generalization properties when using parameter counting as a proxy for complexity. Indeed, neural networks often have many more parameters than there are data points, yet still provide good generalization performance. Moreover, when we measure generalization as a function of parameters, we see double descent behaviour, where the test error decreases, increases, and then again decreases. We show that many of these properties become understandable when viewed through the lens of effective dimensionality, which measures the dimensionality of the parameter space determined by the data. We relate effective dimensionality to posterior contraction in Bayesian deep learning, model selection, width-depth tradeoffs, double descent, and functional diversity in loss surfaces, leading to a richer understanding of the interplay between parameters and functions in deep models. We also show that effective dimensionality compares favourably to alternative norm- and flatness- based generalization measures.

研究の動機と目的

  • 深層ニューラルネットワークにおけるモデル複雑さと一般化の代理指標としてのパラメータ数の限界を是正すること。
  • 過剰にパラメータ化されたモデルが、訓練サンプル数よりもはるかに多くのパラメータを持つにもかかわらず、なぜ一般化性能が良いのかを、特にダブルデセントの文脈で説明すること。
  • ベイジアン事後分布の収縮と損失関数の幾何構造を結びつけることで、効果的次元をモデル容量のより情報豊かな測定値として確立すること。
  • 深さが、より多くのパラメータを持つにもかかわらず、効果的次元を低減させることで、データ圧縮と一般化を向上させることを示すこと。
  • パスノルムやPACベイジアン平坦性といった既存の一般化測定値と比較し、効果的次元のロバストさと解釈可能性を示すこと。

提案手法

  • 訓練損失のヘッセ行列のトレースを最大固有値で割った値として効果的次元を計算し、パrameter空間における顕著な曲率方向の数を捉える。
  • 訓練データ上のヘッセ行列の固有値スペクトルのみを用いて効果的次元を推定し、テストデータや完全な事後分布サンプリングに依存しない。
  • 効果的次元をベイジアンニューラルネットワークにおける事後分散と関連付け、事後分布が収縮したパrameter空間の次元を定量化することを示す。
  • ヘッセ行列の固有ベクトルを用いてパrameter空間内の退化方向を分析し、過剰にパラメータ化されたモデルにおいて、訓練およびテスト入力の両方で関数空間の均一性が成立することを示す。
  • パスノルムに対数変換を施して一般化との相関を改善するが、効果的次元と比較してモデルサイズに敏感で、解釈性に欠けることを示す。
  • 効果的次元とPACベイジアン平坦性測定値を比較し、効果的次元が平坦な方向を数えるのに対し、PACベイズは盆地のサイズを測るため、モデルサイズの変化に伴い挙動が乖離することを強調する。

実験結果

リサーチクエスチョン

  • RQ1過剰にパラメータ化された深層ネットワークは、訓練サンプル数よりもはるかに多くのパラメータを持つにもかかわらず、なぜ一般化性能が良いのか?
  • RQ2幅の異なるモデルにおける一般化誤差のダブルデセント現象を、効果的次元はどのように説明できるか?
  • RQ3パラメータ数が同じでも、深さが幅よりも効果的次元をどれだけ低減させ、一般化を向上させられるか?
  • RQ4ベイジアンディープラーニングにおける事後分布収縮とモデル圧縮に関して、効果的次元はどのように関連するか?
  • RQ5平坦性やノルムに基づく一般化測定値が、モデルサイズの変化に伴い一貫した相関を示さないのはなぜか?

主な発見

  • 訓練損失のヘッセ行列から算出された効果的次元は、過剰にパラメータ化された領域において、テスト誤差をよく追跡し、ダブルデセントの挙動を説明する。
  • 広いが浅いモデルは高い効果的次元を示し、一般化性能が低いが、より深いモデルは低い効果的次元を達成し、同じパラメータ数でも優れた性能を示す。
  • 訓練損失がほぼゼロに近いモデルでは、効果的次元が一般化を強く予測する。パラメータ数やパスノルムを上回る性能を示す。
  • 過剰にパラメータ化されたネットワークでは、訓練およびテストデータの予測が変わらないようなパrameter空間内の退化方向が存在し、関数空間の均一性を示している。
  • ベイジアンニューラルネットワークにおいて、効果的次元は事後分散と逆比例し、事後分布が収縮した領域の次元を定量化する。
  • PACベイジアン平坦性測定値はモデルサイズが大きくなると増加し、一般化と負の相関を示すが、効果的次元はロバストで情報豊かである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。