QUICK REVIEW

[論文レビュー] On the Expressive Power of Deep Polynomial Neural Networks

Joe Kileel, Matthew Trager|arXiv (Cornell University)|May 29, 2019

Tensor decomposition and applications参考文献 20被引用数 34

ひとこと要約

本論文は深層多項式ネットワークを代数的対象として扱い、ネットワーク写像を通じて機能的多様体を定義し、次元公式、充填/ボトルネック条件、テンソル分解との関係を導出して表現力を定量化する。

ABSTRACT

We study deep neural networks with polynomial activations, particularly their expressive power. For a fixed architecture and activation degree, a polynomial neural network defines an algebraic map from weights to polynomials. The image of this map is the functional space associated to the network, and it is an irreducible algebraic variety upon taking closure. This paper proposes the dimension of this variety as a precise measure of the expressive power of polynomial neural networks. We obtain several theoretical results regarding this dimension as a function of architecture, including an exact formula for high activation degrees, as well as upper and lower bounds on layer widths in order for deep polynomials networks to fill the ambient functional space. We also present computational evidence that it is profitable in terms of expressiveness for layer widths to increase monotonically and then decrease monotonically. Finally, we link our study to favorable optimization properties when training weights, and we draw intriguing connections with tensor and polynomial decompositions.

研究の動機と目的

多項式活性化を用いる深層非線形ネットワークの表現力を厳密に測る指標を動機づける。
重みから多項式への代数写像としてネットワークをモデル化し、Zariski閉包を機能的多様体として研究する。
高い活性化度に対する正確な次元公式を導出し、周囲空間を充填するための層幅の境界を提供する。
最適化への影響を探り、ネットワーク表現をテンソルおよび多項式分解と関連付ける。

提案手法

活性化関数 rho_r(z) = z^r を持つ多項式ネットワークを、固定アーキテクチャ d = (d0,...,dh) として定式化する。
重みから同次多項式のベクトルへの代数写像 Phi_{d,r} を定義し、その像 F_{d,r} を研究する。
F_{d,r} の Zariski閉包 V_{d,r} を不可約代数多様体として考え、その次元を分析する。
一般的な次元界を導出し、高い活性化度に対する正確な次元結果を得る（Theorem 14）。
幅のボトルネック（充填不可）基準を確立する（Theorem 19）。
ネットワークをテンソル分解（CP, LORS-2019）に関連づけ、充填幅の上限を提供する（Theorem 10）。
対称性と多同次性を用いて Phi_{d,r} の構造を研究する（Lemma 13）。
次元を推定するための計算的手法（ヤコビ行列、ポリノミアルまたは有限体上のバックプロパゲーション）を提供する。

実験結果

リサーチクエスチョン

RQ1多項式ネットワークアーキテクチャによって誘導される機能的多様体 V_{d,r} の次元はいくつか？
RQ2ネットワークアーキテクチャは周囲空間を充填するのはいつで、層の幅はこれにどう影響するか？
RQ3活性化度 r がネットワークの機能空間の次元と充填性にどう影響するか？
RQ4多項式ネットワークとテンソル/多項式分解との関連は何か、そしてそれらが最適化にとってどんな影響を持つか？
RQ5深さや幅に関係なく表現力を制限するアーキテクチャ上のボトルネックは何か？

主な発見

固定された r とアーキテクチャ d に対して、ネットワークの機能空間は代数多様体を形成し、高い活性化度でその次元は正確に特徴付けられる（Theorem 14）。
幅の拡張/充填基準は、幅が十分に大きくない（ボトルネックがある）場合、ネットワークは周囲空間を充填できないことを示す（Theorem 19）。
次元は層の次元と組み合わせ的因子を組み合わせた式（式(11)）で上方に制限される；仮説の下で高い r に対して等式が成り立つ。
深層多項式ネットワークとテンソル/多項式分解との厳密な関連があり、充填幅の上限を可能にする（Theorem 10）。
ヤコビ行列/バックプロパゲーションを用いた計算実験は、単峰性の最小充填幅と r の増加に伴う次元の安定を確認する（表1–表2の議論）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。