Skip to main content
QUICK REVIEW

[論文レビュー] An Over-parameterized Exponential Regression

Yeqi Gao, Sridhar Mahadevan|arXiv (Cornell University)|Mar 29, 2023
Neural Networks and Applications被引用数 7
ひとこと要約

論文は、指数活性化を用いた2層ニューラルネットワークが過parameterizationの下で訓練可能であることを証明し、幅、学習率、反復回数の明示的な境界を提供して、高確率で小さな訓練損失を達成する。

ABSTRACT

Over the past few years, there has been a significant amount of research focused on studying the ReLU activation function, with the aim of achieving neural network convergence through over-parametrization. However, recent developments in the field of Large Language Models (LLMs) have sparked interest in the use of exponential activation functions, specifically in the attention mechanism. Mathematically, we define the neural function $F: \mathbb{R}^{d imes m} imes \mathbb{R}^d ightarrow \mathbb{R}$ using an exponential activation function. Given a set of data points with labels $\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\} \subset \mathbb{R}^d imes \mathbb{R}$ where $n$ denotes the number of the data. Here $F(W(t),x)$ can be expressed as $F(W(t),x) := \sum_{r=1}^m a_r \exp(\langle w_r, x angle)$, where $m$ represents the number of neurons, and $w_r(t)$ are weights at time $t$. It's standard in literature that $a_r$ are the fixed weights and it's never changed during the training. We initialize the weights $W(0) \in \mathbb{R}^{d imes m}$ with random Gaussian distributions, such that $w_r(0) \sim \mathcal{N}(0, I_d)$ and initialize $a_r$ from random sign distribution for each $r \in [m]$. Using the gradient descent algorithm, we can find a weight $W(T)$ such that $\| F(W(T), X) - y \|_2 \leq ε$ holds with probability $1-δ$, where $ε\in (0,0.1)$ and $m = Ω(n^{2+o(1)}\log(n/δ))$. To optimize the over-parameterization bound $m$, we employ several tight analysis techniques from previous studies [Song and Yang arXiv 2019, Munteanu, Omlor, Song and Woodruff ICML 2022].

研究の動機と目的

  • ニューラルネットワークおよび注意関連モデルにおいてReLUを超える過parameterizationとして指数活性化を研究する動機づけ。
  • 指数活性化を用い、第二層の重みを固定した2層ネットワークを定式化。
  • 大きな幅mと適切な学習率の下で勾配降下法の収束を導出。
  • 指数活性化に関連するニューラルタンジェントカーネルとの収束関係を明らかにする。
  • 離散化と連続設定の下で重み摂動とGram行列を厳密に解析する。

提案手法

  • F(W(t),x)=sum_{r=1}^m a_r exp(w_r^T x) を、a_r ∈ {-1,1} を固定、w_r(0) を乱択ガウスとする定義。
  • 学習率ηで勾配降下法を用い、訓練損失 ||F(T)-y||_2^2 の推移を追跡して上界を与える。
  • 連続Gram行列 H^cts と離散Gram行列 H^dis のスペクトル的近接性を確立し、その差を界限する。
  • Δw_r(t) の変化、損失の減少、勾配の挙動を帰納的に評価する。
  • 幅 m = Omega(λ^{-2} log(n/δ) n^{2+o(1)})、η = Θ(λ/(m n^{2+o(1)}))、T = Omega(λ^{-2} n^{2+o(1)} log(n/ε)) を設定。
  • 初期化と摂動を制御するために確率論・摂動論・スペクトral解析の道具立てを用いる。

実験結果

リサーチクエスチョン

  • RQ1指数活性化を用いるニューラルネットワークに対して訓練域における過parameterization境界を確立できるか。
  • RQ2小さな訓練誤差へ高確率で収束を保証するために必要な幅m、学習率η、反復回数Tは何か。
  • RQ3指数活性化はReLUベースのネットワークと比較してニューラルタンジェントカーネルと収束解析にどのような影響を与えるか。
  • RQ4過parameterized領域において離散と連続のGram行列の差異をどう制御するか。

主な発見

  • 前提条件の下で、勾配降下法は高確率で小さな訓練誤差に収束する。
  • m = Omega(λ^{-2} log(n/δ) n^{2+o(1)})、η = Θ(λ/(m n^{2+o(1)}))、T = Omega(λ^{-2} n^{2+o(1)} log(n/ε)) のとき、W(T) が存在し ||F(T)-y||_2^2 <= ε を満たす。
  • H^cts と H^dis のスペクトル的近接性を示し、サンプリング下で正の最小固有値を保持することを確認し、収束を可能にする。
  • 初期化摂動境界、損失分解、重み・損失・勾配に対する帰納的証明を組み合わせた解析。
  • a_{2r-1}, a_{2r}=-a_{2r-1}、w_{2r-1}=w_{2r} の対の重みで初期化すると初期損失を有意に抑制できる、という結果。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。