QUICK REVIEW

[論文レビュー] Big Neural Networks Waste Capacity

Yann Dauphin, Yoshua Bengio|arXiv (Cornell University)|Jan 16, 2013

Neural Networks and Applications参考文献 11被引用数 49

ひとこと要約

この論文は、1次勾配降下法を用いた大規模なフィードフォワードニューラルネットワークが、容量の増加を効果的に活用できないことを示している。追加された隠れユニット1つあたりの訓練誤差の低減が急速に減少するため、単純なベースラインのテンプレートマッチャーよりも劣る。著者らは、この現象を、ヘッセ行列の悪条件化に起因する最適化の失敗と特定し、ImageNetのような大規模データセットで性能向上を実現するには、2次勾配法や自然勾配法などの改善された最適化手法が必要であると提唱している。

ABSTRACT

This article exposes the failure of some big neural networks to leverage added capacity to reduce underfitting. Past research suggest diminishing returns when increasing the size of neural networks. Our experiments on ImageNet LSVRC-2010 show that this may be due to the fact there are highly diminishing returns for capacity in terms of training error, leading to underfitting. This suggests that the optimization method - first order gradient descent - fails at this regime. Directly attacking this problem, either through the optimization method or the choices of parametrization, may allow to improve the generalization error on large datasets, for which a large capacity is required.

研究の動機と目的

ImageNetのような大規模データセットにおいて、ニューラルネットワークの容量を増加させることで訓練誤差の低減が向上するかを調査すること。
追加された容量を活用できない原因が過学習ではなく最適化の制限にあるかどうかを特定すること。
ヘッセ行列の悪条件化が原因で、1次勾配降下法が大規模なネットワーク容量を効果的に活用できないかどうかを評価すること。
スパarsityや直交性などの代替的最適化手法やアーキテクチャ的選択が、容量の活用を向上させられるかどうかを検討すること。

提案手法

1層のMLPを用いて、ImageNet LSVRC-2010データセット上で実験を実施し、隠れユニット数を1000から15,000まで変化させた。
学習率の減少と学習率のグリッドサーチ（0.1、0.01）を用いて、確率的勾配降下法で訓練誤差を最小化した。
追加された容量の投資利益率（ROI）は、1つの追加ユニットあたりに削減される訓練誤差の数として測定された。
MLPの性能を比較するためのベースラインとして、1つのユニット追加ごとに少なくとも1つの誤差を削減するテンプレートマッチャーを設定した。
ヘッセ行列の悪条件化が、大規模ネットワークにおける隠れユニット間の相互作用増加に起因する最適化の失敗の原因であると仮説された。
データロードの効率化のためHDF5を用い、TheanoをGPUクラスタ上で使用して学習を実行し、最大300エポックまで学習を実行した。

実験結果

リサーチクエスチョン

RQ1大規模データセットにおいて、ニューラルネットワークの隠れユニット数を増加させることで、訓練誤差が比例的に低減するか？
RQ2より多くのパラメータを持つにもかかわらず、大規模ニューラルネットワークが追加された容量を効果的に活用できないのはなぜか？
RQ3この失敗は、ヘッセ行列の悪条件化や局所的最小値の増加といった最適化の問題に起因しているのか？
RQ4容量が大きい場合に、SGDのような1次最適化手法が非常に深く広いネットワークを効果的に訓練できるか？
RQ5K-Meansのような単純なモデルが、容量活用においてディープラーニングネットワークを上回る可能性があるのか。もし上回るなら、その理由は何か？

主な発見

1層のシグモイドMLPにおいて、隠れユニット数を1000から2000に増加させた場合、追加された容量の投資利益率（ROI）は1桁低下する。
5000ユニットを超えると、MLPは1ユニットあたり少なくとも1つの誤差を削減する単純なテンプレートマッチャーベースラインを上回れなくなる。
5000ユニット以上のネットワークの訓練誤差曲線は、同じ点に収束するため、リターンの減少とパフォーマンスの頭打ちが示された。
訓練誤差曲線の微分（ROI）は急激に低下しており、追加の容量を活用することがますます困難であることを示唆している。
最適化の失敗は、主にヘッセ行列の悪条件化に起因するとされ、これは大規模ネットワークにおける隠れユニット間の相互作用増加に起因すると考えられる。
結果から、1次勾配降下法は高容量領域では効果がなく、2次勾配法や自然勾配法などのより良い最適化手法の導入が求められることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。