QUICK REVIEW

[論文レビュー] Mixing Complexity and its Applications to Neural Networks

Michal Moshkovitz, Naftali Tishby|arXiv (Cornell University)|Mar 2, 2017

Machine Learning and Algorithms参考文献 26被引用数 8

ひとこと要約

この論文は、記憶制約下での仮説クラスの学習可能性を分析するための新しい測度として、混合複雑度（mixing complexity）を導入する。特にニューラルネットワークにおいて、高混合複雑度（MC(H) = Ω(√|H|)）を示すクラスは、有界記憶アルゴリズムでは学習不可能であると証明し、これがなぜ大多数のクラスがニューラルネットワークでは学習不可能であるかを説明する。また、この枠組みは、r-十分な分割を持つような自然で構造的なクラスが低混合複雑度を示し、したがって学習可能であることを示しており、理論的限界と実践での成功の両者を調和させる。

ABSTRACT

A line of recent works showed that for a large class of learning problems, any learning algorithm requires either super-linear memory size or a super-polynomial number of samples [Raz, 2016; Kol et al., 2017; Raz, 2017; Moshkovitz and Moshkovitz, 2018; Beame et al., 2018; Garg et al., 2018]. For example, any algorithm for learning parities of size n requires either a memory of size Omega(n^{2}) or an exponential number of samples [Raz, 2016]. All these works modeled the learner as a one-pass branching program, allowing only one pass over the stream of samples. In this work, we prove the first memory-samples lower bounds (with a super-linear lower bound on the memory size and super-polynomial lower bound on the number of samples) when the learner is allowed two passes over the stream of samples. For example, we prove that any two-pass algorithm for learning parities of size n requires either a memory of size Omega(n^{1.5}) or at least 2^{Omega(sqrt{n})} samples. More generally, a matrix M: A x X - > {-1,1} corresponds to the following learning problem: An unknown element x in X is chosen uniformly at random. A learner tries to learn x from a stream of samples, (a_1, b_1), (a_2, b_2) ..., where for every i, a_i in A is chosen uniformly at random and b_i = M(a_i,x). Assume that k,l, r are such that any submatrix of M of at least 2^{-k} * |A| rows and at least 2^{-l} * |X| columns, has a bias of at most 2^{-r}. We show that any two-pass learning algorithm for the learning problem corresponding to M requires either a memory of size at least Omega (k * min{k,sqrt{l}}), or at least 2^{Omega(min{k,sqrt{l},r})} samples.

研究の動機と目的

理論的学習不可能性とニューラルネットワークの実践的成功の間のギャップを解消すること。
r-十分な分割を用いて、自然なデータクラスにおける「構造」の概念を形式化すること。
混合複雑度が、ニューラルネットワークにおける一般化を説明するためのVC次元よりも優れた複雑度測度であることを示すこと。
混合複雑度が小さなラベルの摂動に対して頑健であることを示すこと。
有界記憶下での理論的限界とニューラルネットワークの実践的成功を調和させること。

提案手法

仮説クラス H がランダムなクラスにどれほど近いかを、二部グラフ表現におけるエッジ分布に基づいて測る、混合複雑度（MC(H)）を導入する。
すべての頂点ペアにほぼ一様にエッジが分布するようなクラスをモデル化するため、d-ミキシング性質（d-mixing property）を用いる。
エッジ濃度の上限（Claim 10）を含むグラフ理論的ツールを用いて、例に対する仮説の分布を分析する。
d-ミキシングクラスがVC次元 Ω(log |H|) を持つことを証明し、記憶制約なしでは最も学習が難しいクラスであることを示す。
ラベル摂動に対する混合複雑度の頑健性を示す：b 個のラベルを変更すると、混合複雑度は最大で √b だけ増加する。
シェル分解と仮説の分割を用いて、混合クラスが大きなシェルサイズを持つことを示し、その学習困難性を強化する。

実験結果

リサーチクエスチョン

RQ1なぜ記憶制約下での学習可能性の理論的限界があるにもかかわらず、ニューラルネットワークは実践で成功するのか？
RQ2現実世界のデータクラスにどのような構造的性質があるため、高複雑度にもかかわらずニューラルネットワークがそれらを学習可能なのか？
RQ3混合複雑度は、ニューラルネットワークにおける一般化を説明するためのVC次元よりも優れた複雑度測度として機能できるか？
RQ4ラベルやデータに小さな変更が加わった場合、混合複雑度はどのように変化するか？
RQ5r-十分な分割を持つ（つまり、構造的な）仮説クラスは、本質的に複雑さが低く、記憶制約下でも学習可能なのか？

主な発見

混合複雑度 MC(H) = Ω(√|H|) を示すクラスは、有界記憶アルゴリズムでは学習不可能であり、記憶制約下では大多数の仮説クラスが学習不能であることを示唆する。
高混合複雑度の仮説クラスは VC次元 Ω(log |H|) を示し、これは最大の可能性であり、記憶制約なしでは最も学習が難しいクラスであることを確認する。
自然で構造的なクラス（r-十分な分割によって形式化）は低混合複雑度を示し、したがって有界記憶下でも学習可能である可能性がある。
混合複雑度は頑健である：最大b個の例のラベルを変更すると、混合複雑度は最大で √b だけ増加する。
混合複雑度は、自然画像データとランダムラベルを区別でき、Zhangら（2017）が観察した一般化ギャップを説明する。
この枠組みは、現実世界のデータクラスが混合的でない（背後に構造がある）ため、理論的学習不可能性と実践的成功を調和する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。