[論文レビュー] SLAY: Geometry-Aware Spherical Linearized Attention with Yat-Kernel
SLAYはユニット球面クエリ/キーでYatカーネルを線形化する幾何学的感知付き線形時間アテンション機構を提案し、O(L) 時間とメモリでソフトマックスに近い性能を達成し、従来の線形アテンション法を上回る。
We propose a new class of linear-time attention mechanisms based on a relaxed and computationally efficient formulation of the recently introduced E-Product, often referred to as the Yat-kernel (Bouhsine, 2025). The resulting interactions are geometry-aware and inspired by inverse-square interactions in physics. Our method, Spherical Linearized Attention with Yat Kernels (SLAY), constrains queries and keys to the unit sphere so that attention depends only on angular alignment. Using Bernstein's theorem, we express the spherical Yat-kernel as a nonnegative mixture of polynomial-exponential product kernels and derive a strictly positive random-feature approximation enabling linear-time O(L) attention. We establish positive definiteness and boundedness on the sphere and show that the estimator yields well-defined, nonnegative attention scores. Empirically, SLAY achieves performance that is nearly indistinguishable from standard softmax attention while retaining linear time and memory scaling, and consistently outperforms prior linear-time attention mechanisms such as Performers and Cosformers. To the best of our knowledge, SLAY represents the closest linear-time approximation to softmax attention reported to date, enabling scalable Transformers without the typical performance trade-offs of attention linearization.
研究の動機と目的
- Yatカーネル(E-Product)の幾何学的特性を長文文脈モデリングのために保持する線形時間アテンション機構を動機づける。
- クエリ/キーを単位ノルムに制約して整列と距離を分離し、線形化を可能にする。
- バーンシュタインの定理を用いた正の乱数特徴近似を導出し、O(L)のアテンションを実現する。
- 正の定義性・有界性など理論的保証と実践的なスケーラビリティを示す。
- SLAYをソフトマックスおよび既存の線形時間手法と語学・ビジョンタスクを横断して実験的に比較し、Transformer規模の評価を含む。
提案手法
- Yat-カーネルを単位ノルムのクエリ/キーと共に球面上の幾何学的類似度として再定式化する。
- 分母を Bernstein の定理を用いてラプラス表現で線形化し、正の混合多項式–指向カーネルを得る。
- 得られたカーネルを strictly positive random features(アンカー特徴などを用いた多項式、PRFを用いた指数)で近似する。
- ガウス–ラグールの分離則で積分を離散化し、有限和のカーネルを得る。
- 多項式と指数ランダム特徴を乱択テンソルスケッチングで統合し、実現可能な線形時間アテンションマップを形成する。
- 提案された特徴マップを用いてL×Lアテンション行列を作成せず、標準の線形アテンション収縮でアテンションを計算する。
実験結果
リサーチクエスチョン
- RQ1Yatカーネルを球面上の単位球にクエリ/キーを制限して幾何学的特性を保持しつつ線形時間化できるか。
- RQ2 Bernstein の定理は球面Yatカーネルの正の、扱いやすい乱数特徴表現を可能にし、O(L) アテンションを支援するか。
- RQ3SLAYベースのトランスフォーマーは、言語・ビジョンタスクの線形時間・メモリスケーリングを維持しつつ、近いソフトマックス性能を達成するか。
- RQ4Performers、Cosformers、他の線形時間アテンション法と精度・スケーラビリティの点でどのように比較されるか。
- RQ5SLAYは極端な分類(大規模ラベル)設定やフルスケールのトランスフォーマー訓練において有効か。
主な発見
- SLAYは全ての球面YATアテンションに近く、一般に従来の線形時間手法よりも主要なベンチマークで優れている。
- 特徴予算が同等の場合、アンカー特徴は他より低遅延で高い精度を提供する。
- SLAYは正確な方法よりもメモリ使用量を抑えつつ線形時間アテンションを示し、非常に長いシーケンスでもスループットを維持する。
- 極端な分類(Eurlex-4K)において、SLAYはPerformer/FAVOR+ベースラインよりもP@1, P@3, P@5 および PSP@1/3/5 が高い。
- SLAYformer 実験では、SLAYアテンションは検証損失と困難度が標準ソフトマックスに近く、他の線形時間アテンションベースラインより大幅に優れている。
- SLAYは安定した訓練と長い文脈までのスケーラブルな性能を示し、O(L) の計算量を維持しつつソフトマックスレベルに近づく。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。