QUICK REVIEW

[論文レビュー] On the loss landscape of a class of deep neural networks with no bad local valleys

Quynh L. Nguyen, Mahesh Chandra Mukkamala|arXiv (Cornell University)|Sep 27, 2018

Machine Learning and ELM参考文献 46被引用数 39

ひとこと要約

この論文は、出力層へのスキップ接続を持つ過パラメータ化された深層ニューラルネットワークのクラスを特定し、そのネットワークは悪い局所的谷（bad local valleys）を必然的に持たないことを証明している。つまり、パラメータ空間の任意の点から、訓練損失が非増加でゼロに限りなく近づく連続的なパスが存在する。主な結果は、標準的な交差エントロピー損失のもとで、このようなネットワークには最適でない厳密な局所的最小値が存在しないことである。これにより、SGDは実際の一般化性能を維持したまま、ゼロの訓練誤差に収束できる。

ABSTRACT

We identify a class of over-parameterized deep neural networks with standard activation functions and cross-entropy loss which provably have no bad local valley, in the sense that from any point in parameter space there exists a continuous path on which the cross-entropy loss is non-increasing and gets arbitrarily close to zero. This implies that these networks have no sub-optimal strict local minima.

研究の動機と目的

深層ニューラルネットワークの損失関数の地形が、悪い局所的谷を含まないようなアーキテクチャ的条件を同定すること。
標準的な活性化関数と交差エントロピー損失を用いた過パラメータ化ネットワークにおいて、最適でない厳密な局所的最小値が存在しないという理論的保証を確立すること。
隠れ層のユニットから出力層へのスキップ接続が、深層ネットワークの最適化と一般化性能に与える影響を分析すること。
ゼロの訓練誤差を達成する無限に多くの解の中でも、SGDが一般化可能な解に内在的にバイアスをかけるかどうかを検証すること。
局所探索アルゴリズム（例：SGD）に理論的に好適な、実用的なネットワークの構築フレームワークを提供すること。

提案手法

著者らは、少なくともN個の隠れユニット（N = 訓練サンプル数）が、その深さに関係なく出力層に独立した重みで直接接続されている深層ネットワークのクラスを定義している。
このようなネットワークに対して、パラメータ空間の任意の初期点から出発しても、交差エントロピー損失が非増加であり、かつゼロに限りなく近づく連続的なパスが存在することを証明している。
解析は、任意の深さ、重み共有、標準的な活性化関数を用いた全結合および畳み込みネットワークに適用可能であり、訓練データの分布的仮定は一切不要である。
証明は、過パラメータ化とスキップ接続構造を活用して、損失が非増加を保つパラメータ補間経路を構築することに依拠している。
隠れ層における共有・非共有重みの両方を許容し、複数の隠れ層から出力層へのスキップ接続もサポートしている。
実験では、変更を加えたVGGおよびDenseNetアーキテクチャをスキップ接続付きで学習させ、SGDとランダム特徴量ベースラインを比較することで理論の妥当性を検証している。

実験結果

リサーチクエスチョン

RQ1局所探索によってゼロの訓練誤差に収束できるような、悪い局所的谷を含まない深層ニューラルネットワークのクラスを特定できるか？
RQ2交差エントロピー損失を用いた過パラメータ化ネットワークにおいて、最適でない厳密な局所的最小値が存在しないことを保証するアーキテクチャ的条件は何か？
RQ3隠れユニットから出力層へのスキップ接続は、深層ネットワークの最適化と一般化性能にどのように影響を与えるか？
RQ4ゼロの訓練誤差を達成する解が無限に存在する状況でも、SGDが一般化可能な解に内在的にバイアスをかけるか？
RQ5理論的に悪い局所的最小値を回避可能でありながら、強力な一般化性能を維持できる実用的な深層ネットワークを構築できるか？

主な発見

N個以上の隠れユニットが直接出力層に接続されているネットワーク（N = 訓練サンプル数）は、悪い局所的谷を有さず、任意の初期点からゼロ損失に近づく連続的かつ非増加のパスが存在する。
悪い局所的谷が存在しないことは、これらのネットワークの損失関数に最適でない厳密な局所的最小値が存在しないことを示唆する。
損失関数には局所的最大値も存在せず、最適化の地形がさらに良好であることが裏付けられる。
実験では、SGDで学習されたスキップ接続付きネットワークが、ゼロの訓練誤差を達成したとしても、ランダム特徴量ベースラインよりも顕著に優れた一般化性能を示した。
データオーグメンテーションを用いたCIFAR-10では、SGDで学習されたVGG16（スキップ接続付き）は、シグモイド活性化関数で70.61%、ソフトプラスで81.91%のテスト精度を達成し、ランダム特徴量ベースラインを10ポイント以上上回った。
複数のアーキテクチャにわたり、SGDとランダム特徴量学習の間の性能差が継続的に観察されたことから、SGDが高品質な解に内在的にバイアスをかけることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。