Skip to main content
QUICK REVIEW

[論文レビュー] SGD Learns the Conjugate Kernel Class of the Network

Amit Daniely|arXiv (Cornell University)|Feb 27, 2017
Stochastic Gradient Optimization Techniques被引用数 81
ひとこと要約

SGDは、ランダム初期化後のカーネルダイナミクスと関連づけて、全ネットワークを訓練することにより、広範な深層ネットワークファミリの共役カーネル空間の関数を多項式時間で学習できることを示している。

ABSTRACT

We show that the standard stochastic gradient decent (SGD) algorithm is guaranteed to learn, in polynomial time, a function that is competitive with the best function in the conjugate kernel space of the network, as defined in Daniely, Frostig and Singer. The result holds for log-depth networks from a rich family of architectures. To the best of our knowledge, it is the first polynomial-time guarantee for the standard neural network learning algorithm for networks of depth more that two. As corollaries, it follows that for neural networks of any depth between $2$ and $\log(n)$, SGD is guaranteed to learn, in polynomial time, constant degree polynomials with polynomially bounded coefficients. Likewise, it follows that SGD on large enough networks can learn any continuous function (not in polynomial time), complementing classical expressivity results.

研究の動機と目的

  • 深さ2を超えるアーキテクチャに対して、標準的なSGDがニューラルネットワークで成功する条件を動機づけ、形式化する。
  • ランダム初期化を介してニューラルネットワークの訓練を共役カーネルフレームワークに結びつける。
  • 広範な条件の下で、SGDがネットワークのカーネル空間の関数を学習する多項式時間保証を証明する。
  • 系外の結果として、定数次数多項式の効率的学習および十分なネットワークサイズがあれば任意の連続関数を学習できることを示す。

提案手法

  • 再現と出力層を備えた計算スケルトンとしてニューラルネットワークをモデル化する。
  • スケルトンに関連する共役活性化と組成カーネルを定義する。
  • Xavier風のランダム初期化とゼロ初期化された予測層を用いたSGDを分析する。
  • 多項式サイズのネットワーク、学習率、およびステップ数で、SGDがカーネル空間でほぼ最適な損失を達成することを証明する。
  • カーネル空間の結果を実用的な関数クラス(多項式、CNF/DNF、連続関数)へ翻訳する系外結論を提供する。

実験結果

リサーチクエスチョン

  • RQ1深いアーキテクチャにおける SG D が、ネットワークの共役カーネル空間の任意の関数を多項式時間内に学習できることを保証できるか。
  • RQ2ネットワークの深さ、レプリケーション、活性化の境界が、SGDがカーネル空間のターゲットへ収束する保証にどう影響するか。
  • RQ3共役カーネルフレームワークを通じてSGDによって効率的に学習可能な関数クラスは何ですか(例:多項式、論理式、連続関数)؟

主な発見

  • SGDは、共役カーネル空間において、係数が多項式に成長する定数次数の多項式を多項式時間で学習することが保証される。
  • SGDは、カーネルクラス内で、特定の定数項/リテラルを持つ conjunctions、DNF/CNF を多項式時間で学習することが保証される。
  • 深さが log(n) までのネットワークでは、連続関数のような非多項式クラスを含む共役カーネル空間の関数をSGDが学習するが、必ずしも多項式時間内とは限らない。
  • SGDが連続関数と特定の PAC 学習可能な関数クラスをカーネルフレームワーク内で学習できることを示す系外結論が存在する。
  • 結果は、完全に結合されたネットワークおよび畳み込みネットワークにも、対数深度かつ畳み込み層数が定数の条件で拡張される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。