QUICK REVIEW

[論文レビュー] Breaking the Curse of Dimensionality with Convex Neural Networks

Francis Bach|arXiv (Cornell University)|Dec 30, 2014

Stochastic Gradient Optimization Techniques参考文献 61被引用数 321

ひとこと要約

本論文は、非減少かつ正同次な活性化関数（例：ReLU）を備えた1層隠れ層ニューラルネットワークの凸最適化定式化を提案し、指数的サンプル複雑性を伴わずに、証明可能な一般化性能を実現する。出力重みに非ユークリッド正則化を適用し、非凸部分問題を半定形計画法により緩和することで、低次元構造に適応可能となり、入力次元が指数的に増大する高次元設定下でも非線形変数選択が可能になる。

ABSTRACT

We consider neural networks with a single hidden layer and non-decreasing homogeneous activa-tion functions like the rectified linear units. By letting the number of hidden units grow unbounded and using classical non-Euclidean regularization tools on the output weights, we provide a detailed theoretical analysis of their generalization performance, with a study of both the approximation and the estimation errors. We show in particular that they are adaptive to unknown underlying linear structures, such as the dependence on the projection of the input variables onto a low-dimensional subspace. Moreover, when using sparsity-inducing norms on the input weights, we show that high-dimensional non-linear variable selection may be achieved, without any strong assumption regarding the data and with a total number of variables potentially exponential in the number of ob-servations. In addition, we provide a simple geometric interpretation to the non-convex problem of addition of a new unit, which is the core potentially hard computational element in the framework of learning from continuously many basis functions. We provide simple conditions for convex relaxations to achieve the same generalization error bounds, even when constant-factor approxi-mations cannot be found (e.g., because it is NP-hard such as for the zero-homogeneous activation function). We were not able to find strong enough convex relaxations and leave open the existence or non-existence of polynomial-time algorithms.

研究の動機と目的

非パラメトリック学習における次元の呪いを解消するため、1層隠れ層ニューラルネットワークの凸最適化フレームワークを構築すること。
データに対する強い仮定を必要とせず、部分空間への依存や非線形変数選択などの低次元構造の適応的学習を可能にすること。
凸定式化における近似誤差と推定誤差の両方を分析することで、一般化誤差に関する理論的保証を提供すること。
新しい隠れユニットを追加する非凸部分問題の凸緩和を検討し、一般化誤差境界を維持する条件を同定すること。
凸緩和が最適性能に達するための幾何的解釈と十分条件を特定すること、特に定数倍近似が得られない場合でも有効であることを示すこと。

提案手法

隠れユニット数を無限に増大させ、出力重みに非ユークリッド正則化を適用することで、非減少かつ正同次な活性化関数（例：ReLU）を備えた1層隠れ層ニューラルネットワークを凸最適化問題として定式化する。
活性化関数の幾何的解釈を用い、新しいユニットを追加する非凸部分問題の凸緩和を、ゾノトープとハウスドルフ距離に基づいて導出する。
次元dの緩和において、$ V = vv^\top $（$ \|v\|_2 = 1 $）を導入し、$ \|Vz_i\|_2 \leq 2u_i - v^Tz_i \leq \sqrt{z_i^T V z_i} $ を含む制約を伴う凸半定形計画問題を構築する。
n+d次元の緩和において、$ U = uu^\top $、$ V = vv^\top $、$ J = uv^T $ を用い、$ |\text{tr}(V z_i z_j^T)| \leq 4U_{ij} + z_j^T V z_i - 2\delta_i^T J z_j - 2\delta_j^T J z_i $ を含む制約を導入する。
符号ベクトル緩和において、$ S = ss^\top $、$ J = s v^T $ を用い、$ \delta_i^T J x_i \geq \max_{j \neq i} |\delta_j^T J x_i| $ および $ (x_i^T V x_i)^{1/2} \leq \delta_i^T J x_i $ を含む制約を導入する。
半定形制約下で、$ \frac{1}{2n} \sum_{i=1}^n y_i (\delta_i^T J x_i + v^T x_i) $ を最大化することで、凸緩和を得る。

実験結果

リサーチクエスチョン

RQ1無限に増大する隠れユニット数と非ユークリッド正則化を備えた凸ニューラルネットワークは、入力次元に依存しない一般化誤差境界を達成できるか？
RQ2非凸部分問題（新しいユニットの追加）の凸緩和が、一般化誤差境界を維持するための条件は何か？
RQ3このような凸定式化は、k次元部分空間への依存など、未知の低次元構造に適応可能か？特にkの事前知識がなくても可能か？
RQ4入力重みにスパarsity誘導正則化を適用することで、変数数が観測数の指数関数的に増大する高次元設定でも非線形変数選択が可能か？
RQ5提案された凸緩和は、非指数的サンプル複雑性を有する多項式時間アルゴリズムを導くか？

主な発見

凸定式化は、k次元部分空間への依存など、事前知識のない未知の低次元構造に適応可能な一般化誤差境界を達成する。
入力重みにスパarsity誘導正則化を適用した場合、変数数が観測数の指数関数的に増大する高次元設定下でも、非線形変数選択が可能になる。
近似誤差と推定誤差の両方について理論的保証が得られ、推定誤差は$ O(1/\sqrt{n}) $のスケーリングを示すが、このレートは多項式時間アルゴリズム下で境界を維持するには遅すぎる。
特定の幾何的条件を満たす場合、非凸部分問題の凸緩和は、定数倍近似が得られない場合でも、同じ一般化誤差境界を達成できる。
ゾノトープ間のハウスドルフ距離を計算する、または2値線形分類問題を解くという幾何的解釈により、解空間の構造に関する洞察が得られる。
理論的期待に満たないが、非指数的サンプル複雑性を有する、かつ多項式時間で実行可能なアルゴリズムは現在のところ知られておらず、そのようなアルゴリズムの存在・非存在は未解決のままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。