QUICK REVIEW

[논문 리뷰] SLAY: Geometry-Aware Spherical Linearized Attention with Yat-Kernel

Jose Miguel Luna, Taha Bouhsine|arXiv (Cornell University)|2026. 02. 04.

Stochastic Gradient Optimization Techniques인용 수 0

한 줄 요약

SLAY는 유닛 구면 쿼리/키에서 Yat-커널을 선형화하여 기하학적 특성을 보존하는 기하학 인식의 선형 시간 주의 메커니즘을 제안합니다. 이는 O(L) 시간과 메모리로 거의 소프트맥스 성능에 근접하며, 기존의 선형 주의 방법들을 능가합니다.

ABSTRACT

We propose a new class of linear-time attention mechanisms based on a relaxed and computationally efficient formulation of the recently introduced E-Product, often referred to as the Yat-kernel (Bouhsine, 2025). The resulting interactions are geometry-aware and inspired by inverse-square interactions in physics. Our method, Spherical Linearized Attention with Yat Kernels (SLAY), constrains queries and keys to the unit sphere so that attention depends only on angular alignment. Using Bernstein's theorem, we express the spherical Yat-kernel as a nonnegative mixture of polynomial-exponential product kernels and derive a strictly positive random-feature approximation enabling linear-time O(L) attention. We establish positive definiteness and boundedness on the sphere and show that the estimator yields well-defined, nonnegative attention scores. Empirically, SLAY achieves performance that is nearly indistinguishable from standard softmax attention while retaining linear time and memory scaling, and consistently outperforms prior linear-time attention mechanisms such as Performers and Cosformers. To the best of our knowledge, SLAY represents the closest linear-time approximation to softmax attention reported to date, enabling scalable Transformers without the typical performance trade-offs of attention linearization.

연구 동기 및 목표

Yat-커널(E-Product)의 기하학적 특성을 유지하면서 긴 맥락 모델링을 위한 선형 시간 주의 메커니즘을 동기화한다.
정렬과 거리를 분리하기 위해 쿼리/키를 단위 노름으로 제약하여 선형화를 가능하게 한다.
Bernstein의 정리에 의해 O(L) 주의를 달성하기 위한 양의 확률 특성 근사치를 도출한다.
이론적 보장(양의 정의성, 경계성)과 실제 확장성을 보여준다.
언어 및 시각 작업에서 소프트맥스 및 기존의 선형 시간 방법과 비교해 SLAY를 경험적으로 평가한다.

제안 방법

Yat-커널을 단위 노름 쿼리/키를 갖는 기하학 인식의 구면 유사도로 재구성한다.
Laplace 표현을 이용한 Bernstein의 정리로 분모를 선형화하여 다항식-지수 커널의 양의 혼합을 얻는다.
결과 커널을 양의 임의 특성(정점 특성으로 인한 다항식 및 PRF를 통한 지수)으로 근사한다.
Gauss–Laguerre 적분으로 적분을 이산화하여 커널의 유한 합을 얻는다.
다항식 및 지수 임의 특성을 무작위 텐서 스케칭을 통해 융합하여 실현 가능한 선형 시간 주의 맵을 형성한다.
제안된 특징 맵을 사용하여 L×L 주의 행렬을 구성하지 않고도 표준 선형 주의 수축으로 주의 계산을 수행한다.

실험 결과

연구 질문

RQ1Yat-커널의 기하학적 특성을 보존하면서 쿼리/키를 구면에 제한해 선형 시간을 달성할 수 있는가?
RQ2Bernstein의 정리가 구면 Yat-커널의 양의, 실용 가능한 임의 특성 표현을 가능하게 하여 O(L) 주의를 지원하는가?
RQ3SLAY 기반 트랜스포머가 언어 및 시각 작업에서 선형 시간 및 메모리 확장성을 유지하며 거의 소프트맥스 성능에 도달하는가?
RQ4SLAY가 Performers, Cosformers 및 다른 선형 시간 주의 접근법과 정확도 및 확장성 측면에서 어떻게 비교되는가?
RQ5극한의/ 대형 라벨 분류 설정 및 전체 규모의 트랜스포머 학습 체제에서 SLAY의 효율성은 어떠한가?

주요 결과

SLAY는 전체 구면 YAT 주의에 근접하며 일반적으로 핵심 벤치마크에서 기존의 선형 시간 방법들보다 우수한 성능을 보인다.
매치된 특징 예산 하에서 Anchor 특징은 강한 정확도를 제공하며 대안들에 비해 지연 시간이 크게 감소한다.
SLAY는 선형 시간 주의로 작동하며 정확한 방법보다 메모리 사용량이 낮아 아주 긴 시퀀스에서도 처리량을 유지한다.
극한 분류(Eurlex-4K)에서 SLAY는 Performer/FAVOR+ 베이스라인보다 높은 P@1, P@3, P@5 및 PSP@1/3/5를 달성한다.
SLAYformer 실험에서 SLAY 주의는 표준 소프트맥스에 가까운 검증 손실 및 혼란도(perplexity)를 보여 다른 선형 시간 주의 베이스라인보다 큰 차이로 우수하다.
SLAY는 안정적인 학습과 길어진 컨텍스트에서도 확장 가능한 성능을 보여 소프트맥스 수준의 결과에 근접하면서 O(L) 복잡도를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.