QUICK REVIEW

[論文レビュー] Learning Non-overlapping Convolutional Neural Networks with Multiple Kernels

Kai Zhong, Zhao Song|arXiv (Cornell University)|Nov 8, 2017

Tensor decomposition and applications参考文献 4被引用数 40

ひとこと要約

この論文は、複数のカーネルを備えた非重複畳み込みニューラルネットワーク（CNN）に対して、初めての多項式的サンプルおよび計算複雑度の回復保証を確立した。ガウス入力のもとで、グローバル最適解の近傍における二乗損失の局所的強い凸性を証明し、テンソル初期化が、入力次元に関して線形かつ精度に関して対数的である勾配降下法の線形収束を可能にすることを示した。これは、ReLU やシグモイドなどの滑らかな活性化関数に対して成り立つ。

ABSTRACT

In this paper, we consider parameter recovery for non-overlapping convolutional neural networks (CNNs) with multiple kernels. We show that when the inputs follow Gaussian distribution and the sample size is sufficiently large, the squared loss of such CNNs is $\mathit{~locally~strongly~convex}$ in a basin of attraction near the global optima for most popular activation functions, like ReLU, Leaky ReLU, Squared ReLU, Sigmoid and Tanh. The required sample complexity is proportional to the dimension of the input and polynomial in the number of kernels and a condition number of the parameters. We also show that tensor methods are able to initialize the parameters to the local strong convex region. Hence, for most smooth activations, gradient descent following tensor initialization is guaranteed to converge to the global optimal with time that is linear in input dimension, logarithmic in precision and polynomial in other factors. To the best of our knowledge, this is the first work that provides recovery guarantees for CNNs with multiple kernels under polynomial sample and computational complexities.

研究の動機と目的

単一カーネルまたは全結合ネットワークと比較して理解が不十分な、複数カーネルを有する非重複CNNの理論的回復保証を提供すること。
ガウス入力分布および一般的な活性化関数のもとでの、複数カーネルCNNの最適化の様相を分析すること。
二乗損失のヘッセ行列がグローバル最適解の近傍で局所的に強く凸であることを確立すること。
テンソル法による初期化が、局所的強い凸性が成り立つ領域にパラメータを配置できることを示すこと。
滑らかな活性化関数に対して、多項式的サンプルおよび計算複雑度を備えた勾配降下法のグローバル収束を証明すること。

提案手法

ReLU、Leaky ReLU、シグモイドなどの活性化関数に対して、弱い条件下でも真の値における母集団ヘッセ行列が正定値であることを証明する。
行列ベルンシュタイン不等式を用いて、十分なサンプル数のもとで、真の値の近傍において、経験的ヘッセ行列が高確率で正定値のままであることを示す。
テンソル分解法を活用して、局所的強い凸性が成り立つ領域にパラメータを初期化する。
局所的強い凸性領域に初期化された場合、勾配降下法がグローバル最適解へ局所的に線形収束することを確立する。
二階微分の滑らかさと誤差バウンドを用いて、滑らかでない活性化関数を含む両方のケースにおいて、真の値近傍のヘッセ行列の固有値特性を分析する。
入力次元、カーネル数、パラメータの条件数に多項式的に依存するサンプル複雑度のバウンドを導出する。

実験結果

リサーチクエスチョン

RQ1複数カーネル非重複CNNにおいて、二乗損失のヘッセ行列がグローバル最適解の近傍で局所的に強く凸となる条件は何か？
RQ2テンソルベースの初期化は、局所的強い凸性が成り立つ領域に勾配降下法を安定して配置できるか？
RQ3真の値の近傍で経験的ヘッセ行列が高確率で正定値であるようにするための必要なサンプル複雑度は何か？
RQ4この設定において、勾配降下法の収束速度は入力次元、精度、およびネットワークパラメータにどのように依存するか？
RQ5ReLU やシグモイドなどの一般的な活性化関数において、理論的保証が成り立つのはどの関数か？

主な発見

ガウス入力のもとで、ReLU、Leaky ReLU、シグモイド、tanh などの一般的な活性化関数に対して、二乗損失の母集団ヘッセ行列は真の値で正定値である。
サンプルサイズが入力次元、カーネル数、条件数に多項式的に依存する場合、真の値の近傍で経験的ヘッセ行列が高確率で正定値のままである。
テンソル法による初期化がなされた場合、勾配降下法は入力次元に関して線形、精度に関して対数的収束でグローバル最適解に収束する。
必要なサンプル複雑度は、入力次元、カーネル数、パラメータの条件数に多項式的に依存する。
理論的枠組みにより、入力次元、カーネル数、パラメータの条件数に多項式的に依存するサンプルおよび計算複雑度を備えた、複数カーネル非重複CNNに対する最初のグローバル収束および回復保証が得られた。
滑らかな活性化関数で、弱い正則性条件を満たすものに対して保証が成り立ち、非滑らかな活性化関数に対しても追加の技術的解析を経て拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。