QUICK REVIEW

[論文レビュー] On the Expressive Power of Deep Learning: A Tensor Analysis

Nadav Cohen, Or Sharir|arXiv (Cornell University)|Sep 16, 2015

Tensor decomposition and applications参考文献 40被引用数 135

ひとこと要約

この論文は、局所性、重み共有、プーリング——実用的な畳み込みニューラルネットワークの主要な要素——を階層的テンソル分解としてモデル化することにより、畳み込み算術回路アーキテクチャを提案する。深層ネットワークが多項式サイズで表現可能な関数のうち、測度がゼロの集合を除き、それらを近似するには浅層ネットワークが指数的に大きなサイズを必要とすることが証明され、深さによる表現力の根本的な優位性が確立される。

ABSTRACT

It has long been conjectured that hypotheses spaces suitable for data that is compositional in nature, such as text or images, may be more efficiently represented with deep hierarchical networks than with shallow ones. Despite the vast empirical evidence supporting this belief, theoretical justifications to date are limited. In particular, they do not account for the locality, sharing and pooling constructs of convolutional networks, the most successful deep learning architecture to date. In this work we derive a deep network architecture based on arithmetic circuits that inherently employs locality, sharing and pooling. An equivalence between the networks and hierarchical tensor factorizations is established. We show that a shallow network corresponds to CP (rank-1) decomposition, whereas a deep network corresponds to Hierarchical Tucker decomposition. Using tools from measure theory and matrix algebra, we prove that besides a negligible set, all functions that can be implemented by a deep network of polynomial size, require exponential size in order to be realized (or even approximated) by a shallow network. Since log-space computation transforms our networks into SimNets, the result applies directly to a deep learning architecture demonstrating promising empirical performance. The construction and theory developed in this paper shed new light on various practices and ideas employed by the deep learning community.

研究の動機と目的

画像やテキストのような構成的データを表現する際、深層ネットワークが浅層ネットワークを上回る優位性を理論的に正当化すること。
局所性、重み共有、プーリングといった畳み込みネットワークの主要なアーキテクチャ的要素を、これまでの深さの効率性の証明に欠けていた理論的枠組みを構築すること。
深層ニューラルネットワークと階層的テンソル分解（特に階層的タッカー分解およびCP分解）との明確な数学的関係を確立すること。
測度がゼロの集合を除き、多項式サイズの深層ネットワークで実現可能な関数は、それらを近似するためには浅層ネットワークが指数的に大きなサイズを必要とする、という事実を証明すること。
理論的知見が実用的な深層学習アーキテクチャ（例：SimNets）に適用可能であることを示すこと。具体的には、対数空間計算と数値安定性を用いること。

提案手法

著者らは、和ノードを用いて畳み込み（局所性と重み共有を含む）を実装し、積ノードを用いてプーリング操作を実装する、畳み込み算術回路アーキテクチャを設計する。
深層ネットワークと階層的タッカー分解の間の同等性、浅層ネットワークとCP（ランク1）分解の間の同等性を確立する。
測度論と行列代数の道具を用いて、これらの分解の表現能力を分析し、深層ネットワークと浅層ネットワークの表現力の違いを比較する。
数値的安定性を確保するため、ネットワークを対数空間に変換し、MEX演算子を用いて安定な対数和指数および和プーリング操作を実装可能なSimNetsによる実装を可能にする。
理論的分析では、非負のテンソル分解が普遍性を保ち、効率的かつ数値的に安定した学習を可能にするという事実を活用する。
構築されたモデルは、画像ベンチマークで優れた実験的性能を示した最近のアーキテクチャであるSimNetsとの同等性を示すことにより、検証される。

実験結果

リサーチクエスチョン

RQ1局所性、重み共有、プーリングといった主要なアーキテクチャ的要素を組み込んだ理論的枠組みを構築することは可能か？これにより、深層学習の表現力が説明可能か？
RQ2深層ニューラルネットワークと階層的テンソル分解との間に明確な数学的同等性が存在するか？
RQ3深層ネットワークは、構成的関数を表現する際、どの程度浅層ネットワークを上回るか？
RQ4近似のためのサイズ要件という観点から、深層ネットワークと浅層ネットワークの表現力はどのように比較されるか？
RQ5理論的な深さの効率性の結果は、SimNetsのような実用的深層学習アーキテクチャに適用可能か？

主な発見

測度がゼロの集合を除き、多項式サイズの深層ネットワークで実現可能なすべての関数は、それらを近似するには指数的に大きな浅層ネットワークが必要であり、深さの効率性に関する強い結果が得られた。
浅層ネットワークはCP（ランク1）テンソル分解に対応し、深層ネットワークは階層的タッカー分解に対応する。これにより、深さの正式なテンソルベースの特徴付けが得られた。
和ノードと積ノードを用いた算術回路に基づく提案アーキテクチャは、自然に局所性、重み共有、プーリングを組み込み、実用的な畳み込みネットワークと整合する。
理論的知見は実用モデルへと転用可能である：この構築は、リソース制約下で画像認識ベンチマークで最先端の性能を示したSimNetsに直接対応する。
対数空間計算により数値的安定性が達成され、MEX演算子により対数和指数および和プーリング操作の安定な実装が可能になった。
非負のテンソル分解は、制約なしのものに比べてやや非効率である可能性があるが、普遍性を保ち、最小限の性能低下で実用的な展開が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。