Skip to main content
QUICK REVIEW

[论文解读] Standard Transformers Achieve the Minimax Rate in Nonparametric Regression with $C^{s,λ}$ Targets

Yanming Lai, Defeng Sun|arXiv (Cornell University)|Feb 24, 2026
Stochastic Gradient Optimization Techniques被引用 0
一句话总结

论文证明标准 Transformer 架构可以在 C^{s,λ} 空间中以任意精度近似 Hölder 函数,并在非参数回归中达到极小化极大值(minimax)最优速率,提供 Transformer 的细粒度结构特征描述。

ABSTRACT

The tremendous success of Transformer models in fields such as large language models and computer vision necessitates a rigorous theoretical investigation. To the best of our knowledge, this paper is the first work proving that standard Transformers can approximate Hölder functions $ C^{s,λ}\left([0,1]^{d imes n} ight) $$ (s\in\mathbb{N}_{\geq0},0<λ\leq1) $ under the $L^t$ distance ($t \in [1, \infty]$) with arbitrary precision. Building upon this approximation result, we demonstrate that standard Transformers achieve the minimax optimal rate in nonparametric regression for Hölder target functions. It is worth mentioning that, by introducing two metrics: the size tuple and the dimension vector, we provide a fine-grained characterization of Transformer structures, which facilitates future research on the generalization and optimization errors of Transformers with different structures. As intermediate results, we also derive the upper bounds for the Lipschitz constant of standard Transformers and their memorization capacity, which may be of independent interest. These findings provide theoretical justification for the powerful capabilities of Transformer models.

研究动机与目标

  • 证明标准 Transformer 能在 L^t 和 L^∞ 范数下近似 C^{s,λ}([0,1]^{d×n}) 的 Hölder 函数,误差可任意小。
  • 建立 Transformer 在 Hölder 目标的非参数回归中达到极小化极大值收敛速率。
  • 通过大小元组和维度向量提供对 Transformer 结构的细粒度描述,以分析泛化与优化。
  • 推导关于 Transformer 的 Lipschitz 常数和记忆容量的中间结果,可能具有独立意义。

提出的方法

  • 构造具有明确的大小、宽度、深度和注意头配置的 Transformer 架构,能够在 L^t 和 L^∞ 范数下对 Hölder 目标近似到 ε(定理 1 和 2)。
  • 利用分割基的近似方法以及在 Transformer 块之间的传播来处理高维输入。
  • 将水平位移技术扩展到 Transformer 以实现 L^∞ 收敛结果(定理 2)。
  • 给出 Lipschitz 常数和记忆容量的上界,作为中间结果(引理 4 和 引理 7)。
  • 定义并使用两种结构度量——大小元组和维度向量,以捕捉 Transformer 的复杂性。
  • 在回归设定 Y_i = f_0(X_i) + ξ_i 下分析,给出对超出风险的界限并展示极小化极大值速率(定理 3)。

实验结果

研究问题

  • RQ1标准 Transformer 是否能在任意精度下用 L^t 范数近似一般 Hölder 空间 C^{s,λ}([0,1]^{d×n}) 的函数?
  • RQ2当目标函数属于 C^{s,λ} 时,标准 Transformer 是否在非参数回归中达到极小化极大值最优速率?

主要发现

  • 存在 Transformer 构造,在 C^{s,λ} 的目标上对任意 ε>0 在 L^t 下实现 ε-近似,且给出显式的网络规模和参数数量。
  • 存在 Transformer 构造,在 C^{s,λ} 的目标上在 L^∞ 下实现 ε-近似,但对规模的要求比 L^t 情况更大。
  • 对于 Hölder 目标的非参数回归,基于 Transformer 的估计量的超额风险按 m^{-2γ/(2γ+dn)}(带对数因子)级联,与极小化极大值速率相符。
  • 中间结果包括对 Transformer 的 Lipschitz 常数界与记忆容量界的界定。
  • 通过大小元组和维度向量对 Transformer 结构进行了细粒度描述,使泛化和优化分析更加充分。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。