QUICK REVIEW

[논문 리뷰] Standard Transformers Achieve the Minimax Rate in Nonparametric Regression with $C^{s,λ}$ Targets

Yanming Lai, Defeng Sun|arXiv (Cornell University)|2026. 02. 24.

Stochastic Gradient Optimization Techniques인용 수 0

한 줄 요약

이 논문은 표준 Transformer 아키텍처가 Hölder 함수들을 C^{s,λ} 공간에서 임의의 정밀도로 근사할 수 있으며 비모수 회귀에서 민맥스 최적 속도를 달성한다는 것을 보이며, Transformer의 구조를 세밀하게 특징지운다.

ABSTRACT

The tremendous success of Transformer models in fields such as large language models and computer vision necessitates a rigorous theoretical investigation. To the best of our knowledge, this paper is the first work proving that standard Transformers can approximate Hölder functions $ C^{s,λ}\left([0,1]^{d imes n} ight) $$ (s\in\mathbb{N}_{\geq0},0<λ\leq1) $ under the $L^t$ distance ($t \in [1, \infty]$) with arbitrary precision. Building upon this approximation result, we demonstrate that standard Transformers achieve the minimax optimal rate in nonparametric regression for Hölder target functions. It is worth mentioning that, by introducing two metrics: the size tuple and the dimension vector, we provide a fine-grained characterization of Transformer structures, which facilitates future research on the generalization and optimization errors of Transformers with different structures. As intermediate results, we also derive the upper bounds for the Lipschitz constant of standard Transformers and their memorization capacity, which may be of independent interest. These findings provide theoretical justification for the powerful capabilities of Transformer models.

연구 동기 및 목표

표준 Transformers가 L^t 및 L^∞ 노름 아래에서 임의의 정밀도로 C^{s,λ}([0,1]^{d×n})의 Hölder 함수들을 근사할 수 있음을 보인다.
Transformer가 Hölder 타깃에 대해 비모수 회귀에서 민맥스 최적 수렴 속도를 달성한다는 것을 확립한다.
일반화 및 최적화를 분석하기 위한 크기 튜플(size-tuple)과 차원 벡터(dimension-vector)를 통한 Transformer 구조의 미세한 특성화를 제공한다.
Transformer의 Lipschitz 상수 및 memorization 용량에 관한 중간 결과를 도출하되, 이는 독자적인 관심사일 수 있다.

제안 방법

명시적 크기, 너비, 깊이 및 어텐션 헤드 구성을 갖춘 Transformer 아키텍처를 구성하여 Hölder 타깃을 L^t 및 L^∞ 노름에서 ε 이내로 근사할 수 있게 한다(정리 1 및 정리 2).
고차원 입력을 처리하기 위해 파티션 기반 근사 접근법과 Transformer 블록 간 근사의 전파를 활용한다.
Transformer에 확장된 수평 이동 기법을 적용하여 L^∞ 수렴 결과를 얻는다(정리 2).
Lipschitz 상수 및 memorization 용량의 상한을 중간 결과로 제시한다(보조정리 4 및 보조정리 7).
Transformer 복잡도를 포착하기 위해 두 가지 구조적 지표인 크기 튜플과 차원 벡터를 정의하고 사용한다.
Y_i = f_0(X_i) + ξ_i 이 주어진 비모수 회귀 설정을 분석하여 초과 위험을 상한하고 민맥스 속도를 보인다(정리 3).

실험 결과

연구 질문

RQ1표준 Transformer가 L^t 노름에서 임의의 정밀도로 일반 Hölder 공간 C^{s,λ}([0,1]^{d×n})의 함수를 근사할 수 있는가?
RQ2대상 함수가 C^{s,λ}에 있을 때 표준 Transformer가 비모수 회귀에서 민맥스 최적 속도를 달성하는가?

주요 결과

명시적 네트워크 크기와 매개변수 개수를 가진 C^{s,λ} 타깃에 대해 L^t에서 임의의 ε>0 근사를 달성하는 Transformer 구성들이 존재한다.
L^∞에서 ε-근사를 달성하는 C^{s,λ} 타깃에 대해 L^t 케이스보다 더 큰 크기 요구를 가진 Transformer 구성이 존재한다.
Hölder 타깃을 갖는 비모수 회귀에서 Transformer 기반 추정기의 초과 위험은 m^{-2γ/(2γ+dn)}(로그 인자들을 고려하면)으로 크기 scale되며 민맥스 속도와 일치한다.
중간 결과로 Transformer에 대한 Lipschitz 상수 한계와 표준(바이어스 없는) 자기 주의의 암기 한계를 포함한다.
크기 튜플과 차원 벡터를 통해 Transformer 구조를 세밀하게 기술하여 일반화 및 최적화 분석을 용이하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.