QUICK REVIEW

[論文レビュー] Distribution-Specific Hardness of Learning Neural Networks

Ohad Shamir|arXiv (Cornell University)|Sep 5, 2016

Stochastic Gradient Optimization Techniques参考文献 12被引用数 23

ひとこと要約

本稿は、勾配ベースの手法を用いた浅いReLUニューラルネットワークの学習が、入力分布やターゲット関数に関する仮定によって計算的に tractable になるかどうかを調査する。両方の仮定が「良い性質」を示しても、標準的な最適化ヒューリスティクスのもとでは依然として計算上の困難さが生じることを示している。

ABSTRACT

Although neural networks are routinely and successfully trained in practice using simple gradient-based methods, most existing theoretical results are negative, showing that learning such networks is difficult, in a worst-case sense over all data distributions. In this paper, we take a more nuanced view, and consider whether specific assumptions on the "niceness" of the input distribution, or "niceness" of the target function (e.g. in terms of smoothness, non-degeneracy, incoherence, random choice of parameters etc.), are sufficient to guarantee learnability using gradient-based methods. We provide evidence that neither class of assumptions alone is sufficient: On the one hand, for any member of a class of "nice" target functions, there are difficult input distributions. On the other hand, we identify a family of simple target functions, which are difficult to learn even if the input distribution is "nice". To prove our results, we develop some tools which may be of independent interest, such as extending Fourier-based hardness techniques developed in the context of statistical queries \cite{blum1994weakly}, from the Boolean cube to Euclidean space and to more general classes of functions.

研究の動機と目的

入力分布やターゲット関数に関する自然な仮定が、ニューラルネットワークの学習を計算的に tractable にするかどうかを理解すること。
現実的な分布的および関数的仮定のもとで、標準的な勾配ベースの最適化手法が浅いReLUネットワークを効果的に学習できるかどうかを調査すること。
線形変換に対する不変性や入力分布の滑らかさが、ニューラルネットワーク学習における困難さを解消するかどうかを検証すること。
損失関数の幾何的性質（たとえば勾配信号の欠如）が、不適切な局所最適解が存在しない状況でも学習を妨げる可能性があるかどうかを検討すること。

提案手法

学習問題を、半空間の積集合を学習するという既知の難問に還元し、不変なアルゴリズムが最悪ケースと平均ケースを区別できないことを示した。
ブール立方体からユークリッド空間へ拡張されたフーリエ技法を用いて、損失関数のスペクトル的性質と勾配情報の分析を行った。
統計的クエリフレームワークを用い、線形変換に対して不変なアルゴリズムが、すべての入力分布において特定のターゲット関数を学習できないことを示した。
周期的関数 $ \psi$ を用いた形式 $\psi(\langle\mathbf{w},\mathbf{x}\rangle)$ のターゲット関数について、目的関数の勾配を分析し、勾配にほとんど信号が含まれないことを示した。
チェビシェフの不等式と分散の上限を用いて、特定の条件下で反復的最適化におけるオракルの応答が真のターゲット関数とは独立していることを証明した。
真の勾配と経験的勾配の期待値における不一致を分析するフレームワークを導入し、小さな分散はターゲット関数に関する情報漏洩がないことを示した。

実験結果

リサーチクエスチョン

RQ1入力分布が滑らかで非退化している場合、標準的な勾配ベースの手法が浅いReLUネットワークを学習できるか？
RQ2ターゲット関数が単純で滑らか（たとえばパラメータに関してランダムに似ている）であれば、学習可能性は保証されるか？
RQ3線形変換に対して不変なアルゴリズム（例：ホワイトニングやプリコンディショニングを用いる）は、特定のターゲット関数の学習において依然として計算上の困難さに直面するか？
RQ4損失関数の幾何的性質（たとえば平坦性や勾配信号の欠如）が、偽の局所最適解が存在しない状況でも学習を妨げる可能性があるか？
RQ5どのような条件下で、目的関数の勾配が、背後にあるターゲット関数に関する情報を伝えなくなるか？

主な発見

浅いReLUネットワークのクラスに属する任意の固定された単純なターゲット関数に対して、線形変換に対して不変なアルゴリズムが多項式時間でそれを学習できないような入力分布が存在する。
過剰適合や不正な学習を許容しても、勾配ベースの手法は、周期的関数 $ \psi$ を用いた形式 $\mathbf{x} \mapsto \psi(\langle\mathbf{w},\mathbf{x}\rangle)$ のターゲット関数を、ガウス分布やガウス混合分布を含む入力分布に対しても学習できない。
このような周期的関数に対して、目的関数の勾配はターゲット関数に関するほとんど信号を含まないため、標準的な勾配法では最適化が不可能である。
困難さは局所最適解やサドルポイントに起因するのではなく、損失関数の幾何的構造に起因しており、ほぼ至る所で平坦で情報のない構造を取る。
勾配推定の分散が小さい場合、線形変換に対して不変なアルゴリズムは真のターゲット関数 $\mathbf{w}^\star$ に関する情報を抽出できない。これはチェビシェフの不等式とオラクルベースの解析によって示された。
ブール立方体からユークリッド空間へのフーリエベースの困難性技法の拡張により、連続領域における一般関数クラスを研究するための新しいツールが得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。