QUICK REVIEW

[論文レビュー] The Early Phase of Neural Network Training

Jonathan Frankle, David J. Schwab|arXiv (Cornell University)|Feb 24, 2020

Stochastic Gradient Optimization Techniques参考文献 20被引用数 50

ひとこと要約

論文は、再現を伴う反復的大きさプルーニング（IMP）を用いて、重みの変化、ロバスト性、およびデータ依存性を定量化し、深層ネットワークの非常に初期のトレーニング段階を解析する。初期の変化は単にラベル主導ではなく、深いネットワークでは符号だけでは不十分であることを示す。自己教師付きタスクやぼかし入力による事前訓練が初期段階の変化を近似できることも示しており、これらの変化は必ずしもラベルに依存しないことを示唆している。

ABSTRACT

Recent studies have shown that many important aspects of neural network learning take place within the very earliest iterations or epochs of training. For example, sparse, trainable sub-networks emerge (Frankle et al., 2019), gradient descent moves into a small subspace (Gur-Ari et al., 2018), and the network undergoes a critical period (Achille et al., 2019). Here, we examine the changes that deep neural networks undergo during this early phase of training. We perform extensive measurements of the network state during these early iterations of training and leverage the framework of Frankle et al. (2019) to quantitatively probe the weight distribution and its reliance on various aspects of the dataset. We find that, within this framework, deep networks are not robust to reinitializing with random weights while maintaining signs, and that weight distributions are highly non-independent even after only a few hundred iterations. Despite this behavior, pre-training with blurred inputs or an auxiliary self-supervised task can approximate the changes in supervised networks, suggesting that these changes are not inherently label-dependent, though labels significantly accelerate this process. Together, these results help to elucidate the network changes occurring during this pivotal initial period of learning.

研究の動機と目的

CIFAR-10 における複数のアーキテクチャで、トレーニングの最初の 4,000 イテレーションのニューラルネットワークの状態を characterizedする。
初期トレーニングのウェイトの摂動が最終性能にどのように影響するかを、符号/大きさの変化と置換不変性を含めて定量化する。
自己教師付きおよびぼかし入力による事前訓練を、ラベル主導の学習の代替として用い、初期段階のデータ依存性を評価する。
遅い rewinding の必要性と初期ウェイト分布の非独立性を検討することで、 lottery ticket 仮説への含意を探る。

提案手法

IMP を用いて、さまざまな早期トレーニング点で疎なサブネットワークを抽出する。
ネットワークを収束させ、ウェイトの 20% を大きさでプルーニングし、残りは以前のイテレーション k の値に rewind する。
ノイズを加える、ウェイトを置換、あるいはコンポーネント内でシャッフルすることで初期状態のネットワークを体系的に摂動し、ロバスト性を探る。
高いスパース性で摂動済みサブネットワークの性能を測定し、符号と分布の重要性を評価する。
効果がノイズ主導か構造主導かを判断するために、摂動を単純なノイズモデルと比較する。
標準的な訓練の前にランダムラベル、自己教師付き回転、あるいはぼかし入力で事前訓練を行い、データ依存性を評価する。

実験結果

リサーチクエスチョン

RQ1共通の CNN アーキテクチャにおいて、非常に初期のトレーニング段階でネットワークのウェイトと勾配はどのように進化するのか。
RQ2初期段階のウェイトの変化と分布は、符号/大きさの入れ替えやウェイトの置換といった摂動に対してロバストか。
RQ3初期段階の学習を、ラベル情報以外（自己教師付きの事前訓練、ぼかし入力）で近似できるか、そしてこれが IMP のrewinding にどのように影響するか。
RQ4データ分布 p(x) とラベル p(y|x) の役割は、初期トレーニングのダイナミクスやスパースサブネットワークの成功にどのように影響するか。

主な発見

初期トレーニングには三つのサブフェーズが見られる：大きな初期勾配、約200イテレーション付近の勾配大きさの最小、そして500イテレーションへ向けた安定化の徐々な進行。
深いネットワークは符号を維持して初期再初期化をしてもランダムウェイトにはロバストでなく、初期のウェイト分布は数百回のイテレーション後でも高度に非独立同分布(i.i.d.)である。
ある時点の符号と別の時点の大きさを組み合わせるような摂動は性能を低下させる可能性があり、初期トレーニングでは大きさが符号よりも影響力が大きいことを示唆する；後の rewinding からの符号も置換後の回復に影響を与える。
ウェイトをグローバル構造やレイヤ内で置換すると、性能に著しく悪影響を及ぼし、ウェイトは独立に分布しておらず構造的組織に敏感であることを示唆する。
ガウス加法ノイズは、中等度のノイズは許容され得るが、ある強度を超える摂動は精度を低下させ、効果はノイズだけに起因するものではないことを示す。
自己教師付きの事前訓練（回転タスク）は IMP rewinding で初期段階の変化を近似できるが、 supervised rewinding の約32倍のエポック数を要することを示し、ラベルは学習を加速する一方で必須ではないことを示す。
ぼかし入力による事前訓練も同様に初期段階の変化を近似でき、ぼかし入力と回転の組み合わせは一部のアーキテクチャ（例：VGG-13）で情報量を過度に減らしてしまうが、ネットワークによって効果は異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。