QUICK REVIEW

[論文レビュー] On the importance of single directions for generalization

Ari S. Morcos, David G. T. Barrett|arXiv (Cornell University)|Mar 19, 2018

Advanced Vision and Imaging参考文献 19被引用数 195

ひとこと要約

記憶化したネットワークは単一の活性化方向に依存する傾向が強い。一般化は単一方向への依存が減少することと相関する。バッチ正規化はこの依存を減らし、クラス選択性はユニットの重要性の良い予測因子ではない。

ABSTRACT

Despite their ability to memorize large datasets, deep neural networks often achieve good generalization performance. However, the differences between the learned solutions of networks which generalize and those which do not remain unclear. Additionally, the tuning properties of single directions (defined as the activation of a single unit or some linear combination of units in response to some input) have been highlighted, but their importance has not been evaluated. Here, we connect these lines of inquiry to demonstrate that a network's reliance on single directions is a good predictor of its generalization performance, across networks trained on datasets with different fractions of corrupted labels, across ensembles of networks trained on datasets with unmodified labels, across different hyperparameters, and over the course of training. While dropout only regularizes this quantity up to a point, batch normalization implicitly discourages single direction reliance, in part by decreasing the class selectivity of individual units. Finally, we find that class selectivity is a poor predictor of task importance, suggesting not only that networks which generalize well minimize their dependence on individual units by reducing their selectivity, but also that individually selective units may not be necessary for strong network performance.

研究の動機と目的

ネットワークの一般化性能が、活性化空間の単一方向への依存度と関連するかを調べる。
ラベルの破損度が異なるデータセットやアーキテクチャで訓練されたネットワークに対して、単一方向を摂動させる（アブレーション）ことがどのような影響を与えるかを調べる。
ドロップアウトやバッチ正規化といった正則化手法が、単一方向への依存度にどのように影響するかを評価する。
単一方向のクラス選択性がネットワーク出力に対する重要性を予測するかを評価する。

提案手法

単一方向を、入力への応答としての個々のユニットの活性化または線形結合として定義する。
選択した方向を0にクランプして活性化空間アブレーションを行い、方向のサブセットごに性能低下を測定する。
ユニットにガウスノイズを加えてランダムな方向への依存をテストし、ノイズはユニットの活性化分散に比例させる。
ニューロサイエンスに触発されたクラス選択性指標を用いて、ユニットがクラスにどれだけ選択的に応答するかを定量化する。
破損したラベルで訓練したデータセットと破損していないラベルのデータセットを、アーキテクチャ横断で比較する（MNISTのMLP、CIFAR-10のCNN、ImageNetのResNet）。
バッチ正規化とドロップアウトが単一方向への依存とクラス選択性に及ぼす影響を分析する。

実験結果

リサーチクエスチョン

RQ1記憶化は、構造学習による一般化と比べて、ネットワークの単一の活性化方向への依存を増加させるか？
RQ2単一方向への依存は、検証セットなしで一般化、早期停止、ハイパーパラメータ選択の代理指標になり得るか？
RQ3ドロップアウトとバッチ正規化は、単一方向への依存とユニットのクラス選択性にどう影響するか？
RQ4クラス選択性は、ユニットがネットワーク出力にとってどれだけ重要かを予測する信頼できる指標か？

主な発見

記憶化するネットワークは、一般化が良好なネットワークよりも、単一方向の累積アブレーションに対して敏感である。
一般化性能の高いネットワークは単一方向への依存が少なく、この関係はアーキテクチャやラベル破損の有無にかかわらず持続する。
バッチ正規化は単一方向への依存を減らし、個々のフィーチャマップのクラス選択性を低下させる一方、相互情報量を増加させる。
ドロップアウトは記憶化を遅らせるが、訓練時のドロップアウト率を超える単一方向への依存を完全には防がない。
単一方向のクラス選択性は、ネットワーク出力に対する重要性を良く予測する指標ではない。高度に選択的なユニットが一貫してより影響力を持つとは限らない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。