QUICK REVIEW

[論文レビュー] A Modern Take on the Bias-Variance Tradeoff in Neural Networks

Brady Neal, Sarthak Mittal|arXiv (Cornell University)|Oct 19, 2018

Neural Networks and Applications参考文献 55被引用数 74

ひとこと要約

著者らは現代のニューラルネットワークにおけるバイアスと分散を測定し、幅が広くなると両方が減少することを示し、古典的なバイアス-分散トレードオフに挑戦している。彼らはまた分散をサンプリング成分と最適化成分に分解し、それを裏付ける理論を提供する。

ABSTRACT

The bias-variance tradeoff tells us that as model complexity increases, bias falls and variances increases, leading to a U-shaped test error curve. However, recent empirical results with over-parameterized neural networks are marked by a striking absence of the classic U-shaped test error curve: test error keeps decreasing in wider networks. This suggests that there might not be a bias-variance tradeoff in neural networks with respect to network width, unlike was originally claimed by, e.g., Geman et al. (1992). Motivated by the shaky evidence used to support this claim in neural networks, we measure bias and variance in the modern setting. We find that both bias and variance can decrease as the number of parameters grows. To better understand this, we introduce a new decomposition of the variance to disentangle the effects of optimization and data sampling. We also provide theoretical analysis in a simplified setting that is consistent with our empirical findings.

研究の動機と目的

伝統的なバイアス-分散の視点と、それが現代のニューラルネットワークに適用可能であることを動機づける。
多様なデータセットでネットワークの幅が増加するにつれて予測のバイアスと分散を経験的に測定する。
総分散をサンプリングと最適化の成分に分解して、それぞれの影響を分離する。
経験的観察と一致する、単純化された設定での理論的分析を提供する。

提案手法

二乗損失予測のバイアス-分散分解を定義し、分類の文脈に適用可能な形に適合させる。
分散の分解を全分散の法則を用いて導入し、サンプリング対最適化の分散を分離する。
MNIST、CIFAR-10、SVHN、小さな MNIST、幅を変えたサイン波回帰タスクを通じて広範な実験を行う。
ブートストラップの再現を用いてバイアスと分散の項を推定し、外部/内部期待の10/10のシードを用いて99%信頼区間を報告する。
幅が広くなるにつれて最適化による分散が減少し、サンプリングによる分散は停留することを示す。
経験的発見を支持するために、過剰パラメータ化された線形モデルや関連設定での理論的洞察を提供する。

実験結果

リサーチクエスチョン

RQ1実践的な設定でニューラルネットワークの幅が増すと予測のバイアスは低下するか？
RQ2幅が増すと予測分散はどうなるか：増えるのか、減るのか、あるいは停滞するのか？
RQ3分散を最適化主導の成分とサンプリング主導の成分に分解できるか、そしてこれらは幅とともにどう変化するか？
RQ4線形または単純化したモデルは、広いネットワークで観察されるバイアス-分散の挙動を説明する洞察を提供できるか？

主な発見

幅を広くした複数のデータセットで、バイアスと分散の両方が低下することがある。
最適化による分散は幅の拡大とともに低下し、過剰パラメータ化領域では無視できる場合がある。
サンプリングによる分散はゆっくり増加し、十分に過剰パラメータ化すると停滞する傾向にある。
全分散の法則は、最適化主導の項とサンプリング主導の項への分解を可能にし、それぞれの役割を明確にする。
経験的な結果は、観察と一致する簡略化設定での理論分析によって補足される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。