QUICK REVIEW

[論文レビュー] Triple descent and the two kinds of overfitting: Where & why do they appear?

Stéphane d’Ascoli, Levent Sagun|arXiv (Cornell University)|Jun 5, 2020

Sparse and Compressive Sensing Techniques参考文献 54被引用数 16

ひとこと要約

本稿は、ニューラルネットワークにおける2つの異なる過学習現象を特定し、分離する。1つは線形回帰におけるノイズフィッティングに起因するN=Dにおける線形ピークであり、もう1つは非線形モデルにおける重み初期化の分散に起因するN=Pにおける非線形ピークである。ランダム特徴量およびニューラルネットワークモデルを用いて、これらのピークがノイズのある回帰において共存することを示し、非線形性が線形ピークを抑制し、非線形ピークを増幅する。また、正則化やアンサンブルによってのみ非線形ピークが軽減されることを示している。

ABSTRACT

A recent line of research has highlighted the existence of a "double descent" phenomenon in deep learning, whereby increasing the number of training examples $N$ causes the generalization error of neural networks to peak when $N$ is of the same order as the number of parameters $P$. In earlier works, a similar phenomenon was shown to exist in simpler models such as linear regression, where the peak instead occurs when $N$ is equal to the input dimension $D$. Since both peaks coincide with the interpolation threshold, they are often conflated in the litterature. In this paper, we show that despite their apparent similarity, these two scenarios are inherently different. In fact, both peaks can co-exist when neural networks are applied to noisy regression tasks. The relative size of the peaks is then governed by the degree of nonlinearity of the activation function. Building on recent developments in the analysis of random feature models, we provide a theoretical ground for this sample-wise triple descent. As shown previously, the nonlinear peak at $N\!=\!P$ is a true divergence caused by the extreme sensitivity of the output function to both the noise corrupting the labels and the initialization of the random features (or the weights in neural networks). This peak survives in the absence of noise, but can be suppressed by regularization. In contrast, the linear peak at $N\!=\!D$ is solely due to overfitting the noise in the labels, and forms earlier during training. We show that this peak is implicitly regularized by the nonlinearity, which is why it only becomes salient at high noise and is weakly affected by explicit regularization. Throughout the paper, we compare analytical results obtained in the random feature model with the outcomes of numerical experiments involving deep neural networks.

研究の動機と目的

ニューラルネットワークにおける2つの過学習のタイプを区別すること：1つは入力次元Dに起因するもので、もう1つはモデルパラメータPに起因するものである。
両方の過学習ピーク（線形ピーク：N=D、非線形ピーク：N=P）が同じモデルで共存可能かどうかを調査すること。
活性化関数の非線形性の程度が、それぞれのピークの顕著さに与える影響を理解すること。
正則化およびアンサンブルの各ピークへの影響を検討し、両方の過学習に同じように影響を与えるかどうかを特定すること。
訓練中のピーク形成の時間的ダイナミクスを分析し、特にピークがどの順序で出現するかを特定すること。

提案手法

非線形性の影響を分離するために、さまざまな活性化関数を用いたランダム特徴量モデルにおけるテスト損失を分析する。
バイアス・バリアンス分解を実施し、線形ピークをノイズフィッティングに、非線形ピークを初期化分散に起因すると帰属づける。
ランダム特徴量モデルにおけるリッジ回帰を用いて、グラム行列の固有スペクトルと小さな固有値の関係を解析的に研究する。
ReLU、Tanh、線形活性化関数を用いた全結合ニューラルネットワークにおける数値実験を実施し、理論的発見の妥当性を検証する。
正則化（重み減衰）およびアンサンブル（複数のランダムシードの平均化）を適用し、2つのピークに対する差異化された影響を評価する。
訓練中のテスト損失の変化を追跡し、ピーク形成のタイミングを比較することで、固有モードの学習速度と関連付ける。

実験結果

リサーチクエスチョン

RQ1N=Dにおける線形ピークとN=Pにおける非線形ピークは、2つの明確に異なる過学習現象であるか？
RQ2両方のピークが同じモデルに共存可能であり、もしそうなら、どのような条件下で共存するか？
RQ3活性化関数の非線形性が、それぞれのピークの相対的な強度にどのように影響するか？
RQ4正則化やアンサンブルによって両方のピークが均等に抑制可能か、それとも片方のみか？
RQ5訓練中に2つのピークが異なるタイミングで形成されるか。もしそうなら、その理由は何か？

主な発見

N=Dにおける線形ピークは、ラベルノイズの過学習に起因し、ノイズなしの状態では消滅する。これは、線形回帰に類似した挙動に起因することを確認している。
N=Pにおける非線形ピークは、ランダム特徴量の初期化の分散に起因し、ラベルノイズがなくても持続する。これは、重み初期化に対する根本的な感受性を示している。
非線形性の増加（例：線形からReLUやTanhに変更）により、線形ピークはインプリシット正則化によって弱まり、初期化分散が増加することで非線形ピークが強化される。
正則化およびアンサンブルは非線形ピークを効果的に抑制するが、線形ピークにはほとんど効果がない。これは、非線形性によって線形ピークがすでにインプリシットに正則化されているためである。
非線形ピークは線形ピークよりも訓練の後半に形成される。これは、グラム行列の小さな固有モードを学習する必要があるためで、収束が遅いためである。
（P, N）位相空間において、両方のピークが共存可能であり、特にノイズが高い場合に、サンプルごとの三重降下曲線が観察される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。