QUICK REVIEW

[論文レビュー] Similarity of Neural Network Representations Revisited

Simon Kornblith, Mohammad Norouzi|arXiv (Cornell University)|May 1, 2019

Neural Networks and Applications被引用数 431

ひとこと要約

本論文は centered kernel alignment (CKA) を頑健で非逆行列変換不変な表現比較指標として導入し、ランダム初期化やアーキテクチャ間で対応層を信頼性高く一致させることを示す。CCA など従来手法とは異なる。

ABSTRACT

Recent work has sought to understand the behavior of neural networks by comparing representations between layers and between different trained models. We examine methods for comparing neural network representations based on canonical correlation analysis (CCA). We show that CCA belongs to a family of statistics for measuring multivariate similarity, but that neither CCA nor any other statistic that is invariant to invertible linear transformation can measure meaningful similarities between representations of higher dimension than the number of data points. We introduce a similarity index that measures the relationship between representational similarity matrices and does not suffer from this limitation. This similarity index is equivalent to centered kernel alignment (CKA) and is also closely connected to CCA. Unlike CCA, CKA can reliably identify correspondences between representations in networks trained from different initializations.

研究の動機と目的

ニューラルネットワーク表現間の類似性を測定する原理的な方法を動機づける。
既存の類似性指標とそれらの不変性特性を批判的に分析する。
Centered kernel alignment (CKA) を導入し、これを CCA および回帰と関連付ける。
CKA が初期化やアーキテクチャをまたいだ層対応を識別する能力を示す。
幅（ワイド）、深さ、データセットを横断した表現類似性の進化を探る。

提案手法

直交性、可逆線形性、等方性スケーリングといった不変性に関する類似指標を定義・形式化する。
HSIC 正規化を用いたスケーラブルで不変性を持つ類似度指標として Centered Kernel Alignment (CKA) を提案する。
線形 CKA を CCA および線形回帰と関連付け、カーネル選択（線形および RBF）を検討する。
さまざまな不変性の下で CKA を従来手法（CCA、SVCCA、PWCCA、線形回帰、HSIC）と比較する。
CNNs と Transformers を用いて CIFAR-10/ CIFAR-100 で層対応、アーキテクチャの深さ・幅の効果、およびデータセット横断の類似性を経験的に評価する。

実験結果

リサーチクエスチョン

RQ1CKA は異なるランダム初期化で訓練されたネットワーク間で安定して層対応を同定できるか。
RQ2幅、深さ、アーキテクチャの差異がCKAで測定される表現の類似性にどう影響するか。
RQ3初期層の表現は後半層よりデータセット間でより類似しているか。
RQ4アーキテクチャ横断の対応を識別する際、CKA は従来の類似度指標（CCA、SVCCA、PWCCA、線形回帰）とどのように比較されるか。
RQ5ニューラル表現における CK A が捕捉する共有サブスペースの幾何学的解釈は何か。

主な発見

CKA は異なる初期化や異なる幅を持つネットワーク間で層の対応を一貫して同定し、この点で CCA、SVCCA、PWCCA を上回る。
ネットワーク幅を増やすとネットワーク間の表現類似性が高くなる。初期層は後半層より少ないチャネルで類似性が飽和する。
初期層の表現は後半層よりデータセットに依存しにくい傾向がある。CIFAR-10とCIFAR-100の表現は初期層で類似しているが、後半層で分岐する。
CKA はResNetsにおける格子状パターンや特徴マップスケールに結びつく層グループの類似性など、他の指標が見逃すアーキテクチャ的構造を明らかにできる。
線形 CK A は特定の変換の下で CCA と一致する一方で、摂動に対する頑健性を提供し、いくつかの多変量統計の逆行列制限を回避する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。