QUICK REVIEW

[論文レビュー] Information Plane Analysis of Deep Neural Networks via Matrix-Based Renyi's Entropy and Tensor Kernels

Kristoffer Wickstrøm, Sigurd Løkse|arXiv (Cornell University)|Sep 25, 2019

Gaussian Processes and Bayesian Inference参考文献 30被引用数 23

ひとこと要約

本稿では、行列ベースのRényiエントロピーとテンソルカーネルを用いて、層間および入力/出力間の相互情報量（MI）を推定する、深層ニューラルネットワーク（DNN）向けの新規な情報平面（IP）分析フレームワークを提案する。この手法により、VGG-16などの大規模なCNNに対する初の包括的なIP分析が可能となり、学習過程における圧縮段階が主に学習データ上で観察され、過学習と関連している可能性が示唆される。また、早期停止によって学習が圧縮段階が完全に現れる前に停止するため、その現象は過学習と関連している可能性がある。

ABSTRACT

Analyzing deep neural networks (DNNs) via information plane (IP) theory has gained tremendous attention recently as a tool to gain insight into, among others, their generalization ability. However, it is by no means obvious how to estimate mutual information (MI) between each hidden layer and the input/desired output, to construct the IP. For instance, hidden layers with many neurons require MI estimators with robustness towards the high dimensionality associated with such layers. MI estimators should also be able to naturally handle convolutional layers, while at the same time being computationally tractable to scale to large networks. None of the existing IP methods to date have been able to study truly deep Convolutional Neural Networks (CNNs), such as the e.g.\ VGG-16. In this paper, we propose an IP analysis using the new matrix--based Rényi's entropy coupled with tensor kernels over convolutional layers, leveraging the power of kernel methods to represent properties of the probability distribution independently of the dimensionality of the data. The obtained results shed new light on the previous literature concerning small-scale DNNs, however using a completely new approach. Importantly, the new framework enables us to provide the first comprehensive IP analysis of contemporary large-scale DNNs and CNNs, investigating the different training phases and providing new insights into the training dynamics of large-scale neural networks.

研究の動機と目的

大規模な畳み込みニューラルネットワーク（CNN）であるVGG-16を含む、高次元の深層ニューラルネットワークにおける正確な相互情報量（MI）推定を可能とすること。
高次元で畳み込み層を含むネットワークを扱う際の、従来のMI推定器の限界を克服しつつ、計算上の実行可能性を維持すること。
DNN学習における圧縮段階が一般現象であるのか、それとも推定バイアスの産物であるのかを調査すること。
高次元設定において H(X) ≈ I(T;X) および H(Y) ≈ I(T;Y) という主張の妥当性を検証すること。
圧縮段階と過学習の関係、特に早期停止を介した関係を検討すること。

提案手法

本手法は、データ次元に依存しない確率分布の表現を可能にする、テンソルカーネルに基づくRényiのα次エントロピー推定器を採用する。
行列ベースのRényiエントロピーをテンソルカーネルを用いて拡張し、畳み込み層の構造を自然に扱えるようにする。
多次元行列ベースのエントロピー推定において一般的に生じる数値的不安定性を回避し、高次元設定でも安定した推定を可能にする。
隠れ層と入力/出力間の相互情報量（MI）は、I(X;T) = H(X) - H(X|T) および I(Y;T) = H(Y) - H(Y|T) を用いて推定され、テンソルベースのエントロピー推定器を適用する。
フレームワークは全結合ネットワーク（MLP）、CNN（例：VGG-16）に適用され、学習データおよびテストデータ上で一般化性能とダイナミクスを評価する。
データ処理不等式（DPI）を検証基準として用いる：I(X;T₁) ≥ I(X;T₂) ≥ ... ≥ I(X;T_L) が成立する必要があり、実験的にその整合性が確認されている。

実験結果

リサーチクエスチョン

RQ1提案されたテンソルベースのMI推定器は、VGG-16などの大規模で深いCNNにおける信頼性の高い情報平面分析を可能にするか？
RQ2DNN学習における圧縮段階は一般現象であるのか、それともMI推定バイアスの産物であるのか？
RQ3提案された推定器下で、高次元において H(X) ≈ I(T;X) および H(Y) ≈ I(T;Y) という主張は成り立つか？
RQ4早期停止は情報平面における圧縮段階の出現にどのように影響するか？
RQ5提案された手法は、深層ネットワークにおいてどの程度データ処理不等式（DPI）を満たしているか？

主な発見

提案手法により、CIFAR-10におけるVGG-16を含む大規模CNNに対する初の包括的かつ包括的な情報平面分析が可能になった。
圧縮段階は学習データにおいて明確に観察され、特に後段の層で顕著であるが、テストデータではそれほど顕著ではない。
一般的な正則化手法である早期停止は、通常、圧縮段階が完全に現れる前に学習を停止させるため、圧縮段階と過学習の関連性が示唆される。
提案された推定器下では、高次元において H(X) ≈ I(T;X) および H(Y) ≈ I(T;Y) という主張は成り立たないが、MIに基づく分析が依然として意味を持つことが示された。
MLPの全層およびVGG-16の全層（1つを除く）において、推定器はデータ処理不等式（DPI）を満たしており、理論的整合性が検証された。
出力層では、MLPおよびCNNの両方において I(Y;T) が log₂(10) ≈ 3.32 に収束し、学習データ上で約100％の精度に対応しており、推定器の信頼性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。