Skip to main content
QUICK REVIEW

[論文レビュー] Rethinking Bias-Variance Trade-off for Generalization of Neural Networks

Zitong Yang, Yaodong Yu|arXiv (Cornell University)|Feb 26, 2020
Adversarial Robustness in Machine Learning参考文献 31被引用数 81
ひとこと要約

この論文は、ニューラルネットワークにおいて幅が広くなるとバイアスが減少し、分散は単峰性になる(増加してから減少する)ことを示しており、それにより単調、ダブルディセント、単峰性などのリスク曲線が生じる。これは二層線形モデルによる理論的支持がある。

ABSTRACT

The classical bias-variance trade-off predicts that bias decreases and variance increase with model complexity, leading to a U-shaped risk curve. Recent work calls this into question for neural networks and other over-parameterized models, for which it is often observed that larger models generalize better. We provide a simple explanation for this by measuring the bias and variance of neural networks: while the bias is monotonically decreasing as in the classical theory, the variance is unimodal or bell-shaped: it increases then decreases with the width of the network. We vary the network architecture, loss function, and choice of dataset and confirm that variance unimodality occurs robustly for all models we considered. The risk curve is the sum of the bias and variance curves and displays different qualitative shapes depending on the relative scale of bias and variance, with the double descent curve observed in recent literature as a special case. We corroborate these empirical results with a theoretical analysis of two-layer linear networks with random first layer. Finally, evaluation on out-of-distribution data shows that most of the drop in accuracy comes from increased bias while variance increases by a relatively small amount. Moreover, we find that deeper models decrease bias and increase variance for both in-distribution and out-of-distribution data.

研究の動機と目的

  • より大きなニューラルネットワークが古典的なバイアス-分散の期待にもかかわらず、なぜ一般化性能が向上することが多いのかを説明する。
  • ネットワークの幅・アーキテクチャ・損失関数・データセットに依存して、バイアスと分散がどのように変化するかを実証的に特徴づける。
  • 単純化したモデルにおいて単峰性の分散を理論的に分析し検証する。
  • 深さがバイアス/分散に及ぼす影響を検討し、OOD(out-of-distribution)性能とモデル深さの関係を調べる。
  • 現代MLで観察されるダブルディセント現象と結びつけて、発見を説明する。

提案手法

  • 一般化Bregman散逸を用いた二乗損失とクロスエントロピー損失のためのランダムデザインのバイアス-分散分解を定義する。
  • unbiasedな推定量を用いて分散を推定し、異なるデータ分割で複数のモデルを訓練してバイアスと分散を経験的に測定する。
  • ネットワークの幅・アーキテクチャ・損失関数・データセットを変化させて、バイアスの単調性と分散の単峰性を観察する。
  • ランダムな第一層を持つ二層線形ネットワークの理論分析を行い、漸近的な領域でバイアスの単調性と分散の単峰性を示す。
  • 深さがバイアスと分散に与える影響を分析し、CIFAR10-Cを用いてOOD性能を研究する。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークにおいて、幅が増えるとバイアスはどのように振る舞うのか?
  • RQ2幅が異なるアーキテクチャと損失関数で分散はどのように振る舞うのか?
  • RQ3相対的なバイアスと分散の大きさに基づいて、全体のリスク曲線はどのような形をとるのか?
  • RQ4深いネットワークはイン-distributionおよびOODデータのバイアス-分散ダイナミクスを変えるのか?
  • RQ5観測したバイアス-分散の挙動を再現できる単純化された二層線形モデルは、ピークの位置を説明できるのか?

主な発見

  • 幅が広くなるとバイアスは単調に減少する(古典的理論と整合)。
  • 分散は単峰性(ベル型)であり、幅が広がるにつれて増加し、再び減少する。これはアーキテクチャやデータセットをまたいで見られる。
  • リスク曲線は、バイアスと分散の相対的な大きさに依存して、単調、ダブルディセント、あるいは単峰性の形をとることがある。
  • 深いモデルはバイアスを低減する傾向があり、分散を増加させる傾向があることから、深さは主にバイアス低減を通じて一般化性能を高める手助けをしている。
  • OODデータでは、ほとんどの正確度低下が増加したバイアスに起因し、分散の寄与は小さい。
  • 第一層がランダムな二層線形モデルは、同じくバイアスの単調性と分散の単峰性を示し、観測された現象を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。