QUICK REVIEW

[論文レビュー] SVCCA: Singular Vector Canonical Correlation Analysis for Deep Learning Dynamics and Interpretability

Maithra Raghu, Justin Gilmer|arXiv (Cornell University)|Jun 19, 2017

Neural Networks and Applications被引用数 155

ひとこと要約

SVCCA は SVD と CCA を組み合わせて、層やアーキテクチャに依存しない方法でニューラルネットワーク表現を比較し、学習ダイナミクス、次元性、クラス感度を明らかにし、圧縮やトレーニング設定への適用にとって有用である。

ABSTRACT

We propose a new technique, Singular Vector Canonical Correlation Analysis\n(SVCCA), a tool for quickly comparing two representations in a way that is both\ninvariant to affine transform (allowing comparison between different layers and\nnetworks) and fast to compute (allowing more comparisons to be calculated than\nwith previous methods). We deploy this tool to measure the intrinsic\ndimensionality of layers, showing in some cases needless over-parameterization;\nto probe learning dynamics throughout training, finding that networks converge\nto final representations from the bottom up; to show where class-specific\ninformation in networks is formed; and to suggest new training regimes that\nsimultaneously save computation and overfit less. Code:\nhttps://github.com/google/svcca/\n

研究の動機と目的

ある層の学習表現がそのニューロン数と同じ有効次元性を持つかを調査する。
層やネットワーク全体で学習中に表現がどのように進化するかを研究する。
ニューラル表現がニューロン全体に分布するのか、それとも軸に揃っているのかを検討する。
学習表現におけるクラス特異的感度の解釈性を評価する。
表現分析に導かれたトレーニングおよび圧縮手法を提案する。

提案手法

各層について、データセット上のニューロンを活性化として R^m のベクトルとして表現する。
各層に対して特異値分解を適用し、分散の99%を説明する方向を保持する。
二つの表現の上位 SV 基底に対して固有相関分析を適用し、整列した方向と相関係数を得る。
整列した方向の相関を各部分空間で平均して SVCCA 相似度を計算する。
共分散行列をブロック対角化して畳み込み層にもスケーラブルにするため、DFT に基づく前処理を導入する。
SVCCA の出力を定義・活用して、ランダムシード、アーキテクチャ、トレーニングのステップ、クラス間で表現を比較する。

実験結果

リサーチクエスチョン

RQ1層の表現の本質的な次元数は、そのニューロン数に対してどの程度であるか？
RQ2異なる層やアーキテクチャの表現は、学習中にどのように収束していくか？
RQ3重要な SVCCA の方向は多くのニューロンに分布しているのか、それとも少数の軸に集中しているのか？
RQ4層間でクラス特異的情報はどのように出現し、SVCCA はクラス間の意味的な類似性を捉えられるか？
RQ5再学習なしに SVCCA がトレーニングおよび圧縮戦略を示唆できるか？

主な発見

学習済みネットワークは、ニューロン数よりはるかに小さなサブスペースで類似の性能を達成でき、過剰パラメータ化の削減を浮き彫りにする。
学習ダイナミクスはボトムアップの収束を示し、下位層の安定化が上位層より早い。
SVCCA の方向は複数のニューロンに分布することがあり、個々のニューロンに厳密に整列しているわけではない。
DFT ベースの SVCCA は意味的なクラス構造を捉え、クラスと層間での感度の違いを明らかにする。
この手法は、活性化を上位 SVCCA の方向に射影することでモデルの圧縮を可能にし、精度低下を最小限に抑えつつ大幅なサイズ削減を実現する。
SVCCA によって導かれた Freeze Training は計算量を削減し、一般化を改善する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。