QUICK REVIEW

[論文レビュー] The Impact of Neural Network Overparameterization on Gradient Confusion and Stochastic Gradient Descent

Karthik Abinav Sankararaman, Soham De|arXiv (Cornell University)|Apr 15, 2019

Stochastic Gradient Optimization Techniques参考文献 72被引用数 35

ひとこと要約

本論文は過剰パラメータ化されたネットワークにおけるSGDダイナミクスを分析するための勾配混乱を定義し、幅が混乱を低減し深さがそれを増加させることを示す；バッチ正規化やスキップ接続などの技術は深さ起因のトレーニング負荷を緩和する。

ABSTRACT

This paper studies how neural network architecture affects the speed of training. We introduce a simple concept called gradient confusion to help formally analyze this. When gradient confusion is high, stochastic gradients produced by different data samples may be negatively correlated, slowing down convergence. But when gradient confusion is low, data samples interact harmoniously, and training proceeds quickly. Through theoretical and experimental results, we demonstrate how the neural network architecture affects gradient confusion, and thus the efficiency of training. Our results show that, for popular initialization techniques, increasing the width of neural networks leads to lower gradient confusion, and thus faster model training. On the other hand, increasing the depth of neural networks has the opposite effect. Our results indicate that alternate initialization techniques or networks using both batch normalization and skip connections help reduce the training burden of very deep networks.

研究の動機と目的

過剰パラメータ化されたネットワークにおけるSGD収束因子としての勾配混乱の概念を動機づけ、形式化する。
ガウス初期化の下で、アーキテクチャの選択（幅、深さ）が勾配混乱に与える影響を分析する。
勾配混乱とSGD収束率およびトレーニング速度を結ぶ理論的境界を示す。
CIFAR/MNIST上のWRN、CNN、MLPを横断する実証検証を提供し、理論と実践を結び付ける。

提案手法

ミニバッチ間の勾配の内積の上限として勾配混乱を定義する。
PL不等式とリプシッツ光滑性の下で、勾配混乱の上限を用いた一定学習率SGDの収束結果を確立する。
Gaussian初期化の下で、勾配混乱が深さとともに増大し、幅とともに減少することを証明する。
小さな重み仮定と一様球面データサンプリングを用いた一般設定へ結果を拡張する。
直交初期化が深層線形ネットの勾配混乱を深さに依存しなくできることを示す。
WRN、CNN、MLPで勾配コサイン類似度とトレーニング収束を測定する大規模な実験を実施し、理論を検証する。

実験結果

リサーチクエスチョン

RQ1勾配混乱は、過剰パラメータ化ネットワーク上でのSGD中のミニバッチ勾配の相互作用をどのように定量化するか？
RQ2標準的なGaussian初期化の下で、幅と深さは勾配混乱にどのような影響を与えるか？
RQ3バッチ正規化やスキップ接続などのアーキテクチャの変更は勾配混乱を低減し、訓練性を改善できるか？
RQ4直交初期化を用いた線形ネットワークや非初期訓練レジームにも結果は拡張できるか？
RQ5ベンチマークデータセット上で、一般的なアーキテクチャにおいて勾配類似性のどのような経験的パターンが現れるか？

主な発見

勾配混乱はアーキテクチャとSGDの速度を結びつける：混乱が高いほど収束が遅くなり、低いほど高速化する。
Gaussian初期化の下で、ネットワーク深さを増すと勾配混乱が上昇し、幅を増すと低下する。
バッチ正規化とスキップ接続を組み合わせると非常に深いネットで勾配混乱を大幅に低減し、訓練性を向上させる。
直交初期化が深層線形ネットの勾配混乱を深さに依存しなくできる。
WRN、CNN、MLPでの実験結果は、幅が広いネットワークほど訓練が速く、幅が広がると勾配類似性がゼロ付近に集中することを示す。
理論は、残差接続と正規化を備えたアーキテクチャが一定の学習率で効率的な訓練を可能にする理由を説明する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。