QUICK REVIEW

[論文レビュー] On the Computational Efficiency of Training Neural Networks

Roi Livni, Shai Shalev‐Shwartz|arXiv (Cornell University)|Oct 5, 2014

Machine Learning and Algorithms参考文献 21被引用数 75

ひとこと要約

この論文は、ReLUまたは二乗活性化関数を用いた深さ2の多項式ネットワークに対する、証明可能な効率性を備えたGECOと呼ばれる新しいアルゴリズムを提案することで、深層ニューラルネットワークの学習における計算効率を再考する。不適切な学習と近似テンソル最大化を活用することで、GECOは特に過剰仕様の状況下でSGDよりも収束が速く、一般化性能に優れる。実験では歩行者検出および合成データにおいて実用的な優位性を示した。

ABSTRACT

It is well-known that neural networks are computationally hard to train. On the other hand, in practice, modern day neural networks are trained efficiently using SGD and a variety of tricks that include different activation functions (e.g. ReLU), over-specification (i.e., train networks which are larger than needed), and regularization. In this paper we revisit the computational complexity of training neural networks from a modern perspective. We provide both positive and negative results, some of them yield new provably efficient and practical algorithms for training certain types of neural networks.

研究の動機と目的

深層ニューラルネットワークの学習における長年の計算困難性に、その実用的成功にもかかわらず、対処すること。
過剰仕様、ReLU活性化関数、正則化といった現代の学習手法が、改善されたアルゴリズムを通じて理論的に正当化できるかどうかを調査すること。
浅いニューラルネットワークの学習における、証明可能な効率性と実用性を兼ね備えたSGDの代替手法を開発すること。
不適切な学習が、ニューラルネットワーク学習における既知のNP困難性結果を回避できるかどうかを示すこと。

提案手法

GECOを提案し、学習をテンソル構造上の非凸最適化問題として定式化する。
ランダム射影とトレース最大化を用いた近似テンソル最大化により、コアとなる最適化ステップを効率的に解く。
ランダムな重みベクトルの上での確率的サンプリング戦略を用いて、3層ネットワークのパラメータの最適な組み合わせを推定する。
学習率とモーメンタムを不要とする最適化スキームを導入し、反復的更新を回避することで計算オーバーヘッドを低減する。
ReLUまたは二乗活性化関数を用いた深さ2のネットワークにこの手法を適用し、データの多項式近似に焦点を当てる。
近似解の誤差を確率的解析によりバインドすることで、近似的に最適な予測子への収束を保証する。

実験結果

リサーチクエスチョン

RQ1深さ2のニューラルネットワークの学習に、SGDを上回る証明可能な効率性を持つアルゴリズムを設計できるか？
RQ2過剰仕様やReLUや二乗活性化関数といった非線形活性化関数は、学習効率にどの程度寄与するか？
RQ3不適切な学習は、ニューラルネットワーク学習における既知のNP困難性結果を回避できるか？
RQ4過剰仕様やミニバッチ正規化といった現代の学習テクニックの実用的成功には、理論的根拠があるか？

主な発見

歩行者検出タスクにおいて、GECOは100,000イテレーション後にテスト誤差約0.085を達成し、SGDをわずかに上回った。
GECOの実行時間はSGDに比べて顕著に速く、同等の性能に到達するまでにSGDがはるかに多くのイテレーションを要した。
過剰仕様要因が4（240個の隠れニューロン）の場合、SGDは要因が1の場合に比べて最大4倍速く収束した。これは過剰仕様の利点を示している。
40個の隠れニューロンを有する深さ2のネットワークにおいて、二乗活性化関数はReLUよりもわずかに優れたテスト誤差を示した。これはアーキテクチャ選択の重要性を示唆している。
理論的解析により、凸かつ滑らかな損失関数の条件下で、$ r > \frac{4d\beta k^{2}}{\epsilon(1-\tau)^{2}} $ イテレーション後に、GECOが高確率で $\epsilon$-最適解に収束することが示された。
アルゴリズムは、ランダム射影の下で高確率で、テンソル最大化問題の $\frac{1-\tau}{\sqrt{d}}$-近似解を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。