QUICK REVIEW

[論文レビュー] Why Are Convolutional Nets More Sample-Efficient than Fully-Connected Nets?

Zhiyuan Li, Yi Zhang|arXiv (Cornell University)|Oct 16, 2020

Machine Learning and Algorithms参考文献 14被引用数 22

ひとこと要約

この論文は、画像タスクにおける畳み込みニューラルネットワーク（ConvNets）が全結合（FC）ネットワークよりも一般化性能に優れている理由を、厳密な理論的説明を提供する。標準的な勾配ベースの最適化手法で訓練されるFCネットワークは、一般化にΩ(d²)個のサンプルを必要とする自然なデータ分布を構築した一方で、SGDなどの訓練アルゴリズムの直交不変性に起因し、ConvNetsはO(1)個のサンプルで一般化を達成する。主な貢献は、誘導的バイアスと最適化ダイナミクスの相互作用に基づく、証明可能なサンプル複雑度のギャップである。

ABSTRACT

Convolutional neural networks often dominate fully-connected counterparts in generalization performance, especially on image classification tasks. This is often explained in terms of 'better inductive bias'. However, this has not been made mathematically rigorous, and the hurdle is that the fully connected net can always simulate the convolutional net (for a fixed task). Thus the training algorithm plays a role. The current work describes a natural task on which a provable sample complexity gap can be shown, for standard training algorithms. We construct a single natural distribution on $\mathbb{R}^d imes\{\pm 1\}$ on which any orthogonal-invariant algorithm (i.e. fully-connected networks trained with most gradient-based methods from gaussian initialization) requires $Ω(d^2)$ samples to generalize while $O(1)$ samples suffice for convolutional architectures. Furthermore, we demonstrate a single target function, learning which on all possible distributions leads to an $O(1)$ vs $Ω(d^2/\varepsilon)$ gap. The proof relies on the fact that SGD on fully-connected network is orthogonal equivariant. Similar results are achieved for $\ell_2$ regression and adaptive training algorithms, e.g. Adam and AdaGrad, which are only permutation equivariant.

研究の動機と目的

画像分類タスクにおけるConvNetsの一般化性能がFCネットワークを上回ることの数学的裏付けを提供すること。特に、データが限られた状況下での優位性を明確にすること。
FCネットワークとConvNetsの間で、証明可能な大きなサンプル複雑度ギャップが生じるような、特定の学習タスクを同定すること。
このギャップが、単にネットワーク構造の表現力の差によるものではなく、アーキテクチャと訓練アルゴリズムのダイナミクスの相互作用に起因することを示すこと。
標準的な訓練アルゴリズムがFCネットワーク上で直交不変性を示すことに起因する誘導的バイアスの役割を形式化すること。
SGDに限らず、Adam や AdaGrad などの適応的アルゴリズムおよびℓ2回帰への分析を拡張すること。

提案手法

ℝ^d × {±1} 上に、係数αi ∈ ℝ を用いた二乗形式∑αixi² に基づくラベルを持つ自然なデータ分布を構築する。
任意の直交不変訓練アルゴリズム（例：ガウス初期化を用いたSGD）が、直交変換に対して不変であることから、FCネットワーク上ではΩ(d²)のサンプル複雑度が必要であることを証明する。
直交群O(d) 及びその接空間（反対称行列）へのパッキングを用いて、仮説クラス内で区別可能な関数の数を評価する。
直交不変性の概念を適用：データが直交行列で回転されても、ネットワークの予測結果は変化しない。この性質が一般化能力を制限する。
直接的結合による議論により、Adam や AdaGrad などの順列不変性を持つアルゴリズムに対しても、Ω(d)のサンプル複雑度下限を示す。
2層のConvNetsが、同じタスクでO(1)またはO(d log(1/ε))のサンプル複雑度を達成することを示し、明確な一般化の優位性を証明する。

実験結果

リサーチクエスチョン

RQ1標準的な訓練アルゴリズム下で、全結合ネットワークと畳み込みネットワークの間で、証明可能なサンプル複雑度ギャップを確立できるか？
RQ2ConvNetsの一般化優位性は、アーキテクチャの誘導的バイアスに起因するのか、それとも最適化ダイナミクスとの相互作用に起因するのか？
RQ3SGD や関連アルゴリズムの直交不変性を用いて、FCネットワークのサンプル複雑度に下限を導出できるか？
RQ4このサンプル複雑度ギャップは、Adam や AdaGrad などの適応的アルゴリズムに対しても、ロバストに成立するか？
RQ5二値分類に限らず、ℓ2回帰に対しても同様の分離が示せるか？

主な発見

ラベルが∑αixi² に基づく単一の自然な分布において、任意の直交不変アルゴリズムは一般化にΩ(d²)のサンプルを必要とするが、2層ConvNetsはO(1)のサンプルで十分である。
SGD、Adam、AdaGrad、またはℓ2正則化付きSGDで訓練されるFCネットワークは、すべて直交不変性を示すため、Ω(d²)のサンプル複雑度が必要である。
ℓ2回帰においては、直交不変アルゴリズムのサンプル複雑度はΩ(d(d+3)/2(1−ε)−1)であるが、ConvNetsはO(d)のサンプル複雑度を達成する。
直接的結合による議論により、順列不変アルゴリズムは1次元画像の局所パターンを検出するためにΩ(d)のサンプルを必要とするが、ConvNetsはO(log(1/δ))のサンプルで十分である。
結果として、ConvNetsの誘導的バイアスは定性的なものではなく、定量的に証明可能であることが示された：FCネットワークが次元の二乗に比例するサンプルを必要とするのに対し、ConvNetsは定数個のサンプルで一般化可能である。
本研究では、単一の分布ケースにおいて、より鋭いΩ(d²/ε)の下限を証明できるかという問題が未解決のまま残されており、今後の研究の方向性として示唆されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。