QUICK REVIEW

[論文レビュー] Deep Network Approximation: Beyond ReLU to Diverse Activation Functions

Zhang Shi-jun, Jianfeng Lu|arXiv (Cornell University)|Jul 13, 2023

Stochastic Gradient Optimization Techniques被引用数 15

ひとこと要約

この論文は、広範な活性化関数クラスを持つネットワークがReLUネットワークの表現力に一致することを示す統一近似フレームワークを開発し、明示的な幅-深さスケーリング因子を提供し、これらの因子がさらに縮むケースを特定する。

ABSTRACT

This paper explores the expressive power of deep neural networks for a diverse range of activation functions. An activation function set $\mathscr{A}$ is defined to encompass the majority of commonly used activation functions, such as $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\mathtt{ReLU}^2$, $\mathtt{ELU}$, $\mathtt{CELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$, $\mathtt{Sigmoid}$, $\mathtt{Tanh}$, $\mathtt{Arctan}$, $\mathtt{Softsign}$, $\mathtt{dSiLU}$, and $\mathtt{SRS}$. We demonstrate that for any activation function $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ can be approximated to arbitrary precision by a $\varrho$-activated network of width $3N$ and depth $2L$ on any bounded set. This finding enables the extension of most approximation results achieved with $\mathtt{ReLU}$ networks to a wide variety of other activation functions, albeit with slightly increased constants. Significantly, we establish that the (width,$\,$depth) scaling factors can be further reduced from $(3,2)$ to $(1,1)$ if $\varrho$ falls within a specific subset of $\mathscr{A}$. This subset includes activation functions such as $\mathtt{ELU}$, $\mathtt{CELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, and $\mathtt{Mish}$.

研究の動機と目的

深層ネットの表現力がReLUを超えて理解されるよう動機づける。
最も一般的な活性化をほぼ網羅する広範な活性化関数集合を定義する。
有界集合上でReLU以外の活性化とReLUネットワークを結びつける近似結果を確立する。
特定の活性化ファミリーに対して幅-depthの要件を縮小できることを導く。
ReLUに基づく近似結果を他の活性化へ転用する含意を議論する。

提案手法

ReLU、Leaky ReLU、ReLU^2、ELU、GELU、SiLU、Swish、Mish、Sigmoid、Tanh、Arctan、Softsign、dSiLU、SRS、およびそれらの変換/スケーリング/反映を含む活性化関数集合Aを定義する。
任意のρ ∈ Aと幅N、深さLを持つReLUネット φ_ReLU に対して、幅3N・深さ2L のρ-ネット φ_ρ が存在し、任意の有界領域 [-A,A]^d で φ_ReLU を任意の精度で近似できることを示す。
密度型の結果を証明する：N_N_ρ{3N,2L} は sup-norm における有界集合上で N_N_ReLU{N,L} において dense である。
C([0,1]^d)、C^s([0,1]^d)、および階段的な線形関数のような関数クラスに対して、ReLU 近似結果を一般の Activation ρ in A に転送する系をコロラリとして提示する。
より高い滑らかさのケース（ρ^{(k)}）へ拡張し、幅-深さスケーリングを (k+1)N と深さ L として示す（定理6）。
特定のケースでの洗練されたスケーリングを提供する：ρ in A_2 の場合は (2,1)、改良サブセット ~A_2 の場合は (1,1) のように、詳細な比較を含む（定理8–9）。

実験結果

リサーチクエスチョン

RQ1境界付き領域で広範な活性化関数クラスは、表現力の点でReLUネットと同等の能力を近似できるか？
RQ2定義された集合Aの活性化関数を用いて、ReLUネットを近似するために必要な明確な幅-深さのスケーリング因子は何か？
RQ3A内のより滑らかなまたは構造化された活性化が、 universal approximation のための幅-深さ要件にどう影響するか？
RQ4より狭い（小さい）幅-深さスケーリングを許す活性化関数のサブセットは存在するか、ReLUベースの結果とどのように比較されるか？

主な発見

A に属する任意のρ に対して、幅 N、深さ L の ReLU ネットワークは、任意の精度で有界領域上を近似する幅 3N、深さ 2L のρ-ネットで近似可能である。
結論として、ρ 活性化ネットワークは少なくとも ReLU ネットワークと同等の表現力を共有し、多くの活性化関数への ReLU ベースの近似結果の伝播を可能にする。
ρ が滑らかな部分集合 A_2 または refined subset ~A_2 に属する場合、幅-深さのスケーリングはそれぞれ (2,1) または (1,1) に縮小でき、より厳密な効率を達成する。
定理6–9 は main result をより高次の滑らかさ（ρ ∈ C^k）および特化された活性化ファミリへ拡張し、場合によってはさらに小さな資源要件を実現する。
連続関数および滑らかな関数の標準的な近似結果（C([0,1]^d)、C^s([0,1]^d)）が、調整された定数を用いてρ-活性化ネットで成立することをコロラリが示す。
表1 は活性化カテゴリ間の幅-深さのトレードオフを要約し、表2 は ~A_2 の各ρ を用いて ReLU を近似する際の代表的な誤差比較を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。