QUICK REVIEW

[論文レビュー] What Do Neural Networks Learn When Trained With Random Labels?

Hartmut Maennel, Ibrahim Alabdulmohsin|arXiv (Cornell University)|Jun 18, 2020

Machine Learning and Data Classification参考文献 53被引用数 29

ひとこと要約

この論文は、ランダムラベルが付与された画像で訓練された深層ニューラルネットワークが学習する内容を調査し、ネットワークパラメータの主要成分とデータ分布の間の整合性が生じることを明らかにした。意味的信号が存在しないにもかかわらず、この整合性は正の転送を可能にする：ランダムラベルによる事前学習は、重みスケーリングを補正した後でも、下流の微調整を加速する。ただし、後段の層の特化が一部の設定ではこの利点を隠してしまうことがある。

ABSTRACT

We study deep neural networks (DNNs) trained on natural image data with entirely random labels. Despite its popularity in the literature, where it is often used to study memorization, generalization, and other phenomena, little is known about what DNNs learn in this setting. In this paper, we show analytically for convolutional and fully connected networks that an alignment between the principal components of network parameters and data takes place when training with random labels. We study this alignment effect by investigating neural networks pre-trained on randomly labelled image data and subsequently fine-tuned on disjoint datasets with random or real labels. We show how this alignment produces a positive transfer: networks pre-trained with random labels train faster downstream compared to training from scratch even after accounting for simple effects, such as weight scaling. We analyze how competing effects, such as specialization at later layers, may hide the positive transfer. These effects are studied in several network architectures, including VGG16 and ResNet18, on CIFAR10 and ImageNet.

研究の動機と目的

ランダムラベルで訓練された際、深層ニューラルネットワークが何を学習するかを理解すること。これは、記憶と一般化を研究するのによく使われる設定である。
意味的信号が存在しないにもかかわらず、ランダムラベルで事前学習しても下流の学習が加速するという直感に反する観察を説明すること。
重みスケーリングなどの混同要因から正の転送を分離し、後段の層の特化によって生じる負の影響がいつ現れるかを分析すること。
アーキテクチャの深さ、幅、ハイパーパrameterが、ランダムラベルで訓練されたネットワークの挙動に与える影響を調査すること。
パラメータ-データ整合性がランダムラベル学習における主要なメカニズムであるという、解析的・実験的証拠を提供すること。

提案手法

完全結合型および畳み込み型ネットワークにおいて、ランダムラベル学習下でのネットワーク重みの主要成分と入力データとの間の整合性を解析的に導出する。
画像データセットをランダムラベルで事前学習し、その後、別個のデータセット（実際のラベルまたはランダムラベル）で微調整することで、転送効果を測定する。
層の重み行列の固有値分解を用いて主要成分を抽出し、下流タスクにおけるフィルタとしての性能を評価する。
以下の4つの条件での微調整性能を比較することで、整合性の影響を隔離する：(1) 事前学習済みの全重み、(2) 重みの上位主要成分のみ、(3) ランダム初期化、(4) 下位固有ベクトル。
事前学習および微調整中に層ごとのニューロン活性パターンをモニタリングし、上位層における特化および容量の低下を検出する。
学習率、初期化スケール、幅、深さ、訓練イテレーションなどのハイパーパrameterを体系的に変化させ、結果の頑健性を検証する。

実験結果

リサーチクエスチョン

RQ1ランダムラベルで訓練された際、深層ニューラルネットワークはどのような構造的性質を学習するか？
RQ2意味的信号が存在しないにもかかわらず、なぜランダムラベルで事前学習しても下流の微調整が加速するのか？
RQ3ランダムラベル学習中にパラメータ-データ整合性はどのように生じるのか？また、その整合性は転送学習においてどのような役割を果たすか？
RQ4どのような条件下でランダムラベル事前学習が負の転送を引き起こし、その原因は何か？
RQ5後段の層の特化は、下流タスクにおけるネットワークの有効容量をどの程度低下させるか？

主な発見

意味的信号が存在しないにもかかわらず、ランダムラベルで事前学習した場合、ネットワーク重みの主要成分とデータ分布との間で顕著な整合性が生じる。
この整合性により正の転送が可能となる：重みスケーリングを補正した後でも、ランダム初期化よりランダムラベル事前学習済みネットワークの方が微調整が速くなる。
畳み込み層重みの上位16個の主要成分のみを用いることで、ランダム初期化と同等の性能が達成され、学習された構造が意味を持つことを示している。
上位固有ベクトルを最小固有値に対応する下位固有ベクトルに置き換えると、性能が著しく低下する。これにより、整合性がランダムではないことが確認される。
上位層における特化（下流タスクに切り替えた後の活性化頻度の急低下によって示される）は、正の転送を隠し、有効容量を低下させることがある。
正の転送効果は、アーキテクチャ（VGG16、ResNet18）、データセット（CIFAR10、ImageNet）、ハイパーパrameter設定の多様な設定で頑健であるが、特定の初期化およびラベル設定では負の影響が現れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。