QUICK REVIEW

[논문 리뷰] ZeroS: Zero-Sum Linear Attention for Efficient Transformers

Jiecheng Lu, Xu Han|arXiv (Cornell University)|2026. 02. 05.

Stochastic Gradient Optimization Techniques인용 수 0

한 줄 요약

ZeroS는 소프트맥스의 0차 항을 제거하는 제로-합 선형 어텐션을 도입하여 음수 가중치와 대조적 토큰 상호작용을 가능하게 하면서도 O(N) 복잡도를 유지합니다; 벤치마크 전반에서 소프트맥스 어텐션과 동등하거나 이를 능가합니다.

ABSTRACT

Linear attention methods offer Transformers $O(N)$ complexity but typically underperform standard softmax attention. We identify two fundamental limitations affecting these approaches: the restriction to convex combinations that only permits additive information blending, and uniform accumulated weight bias that dilutes attention in long contexts. We propose Zero-Sum Linear Attention (ZeroS), which addresses these limitations by removing the constant zero-order term $1/t$ and reweighting the remaining zero-sum softmax residuals. This modification creates mathematically stable weights, enabling both positive and negative values and allowing a single attention layer to perform contrastive operations. While maintaining $O(N)$ complexity, ZeroS theoretically expands the set of representable functions compared to convex combinations. Empirically, it matches or exceeds standard softmax attention across various sequence modeling benchmarks.

연구 동기 및 목표

선형 어텐션 접근법의 볼록성(convexity) 및 균일 가중치 바이어스에 관련된 근본적 한계 식별.
음의 가중치와 대조적 업데이트를 지원하는 선형시간 어텐션 메커니즘 개발.
다양한 시퀀스 모델링 작업에서 ZeroS가 소프트맥스 어텐션과 동등하거나 이를 능가함을 입증.
제로-합 어텐션 형식의 안정성과 표현성에 대한 이론적 보장을 제공.

제안 방법

Softmax에서 0차 항(1/t)을 제거하고 잔차를 재가중하여 제로-합 가중치를 얻도록 제안.
크기와 방향을 분리하고 학습 가능한 게이트를 1차 및 고차 소프트맥스 잔차에 적용한 뒤 부호화된 cos(theta) 항을 다시 도입하여 방사-각도 분해를 도입.
첫 번째 차수 및 고차 구성요소를 제어하는 두 개의 게이트로 재가중된 제로-합 소프트맥스를 형식화하여 접두합(prefix sums)을 통한 선형시간 계산 가능.
RoPE를 통합하여 각도 정보를 도입하고 어텐션 가중치의 제로-합 특성을 보존.
세분화된 로짓과 접두합 기반 계산으로 O(N d^2) 시간 및 O(d^2) 메모리를 유지하여 효율적 학습과 추론을 가능하게 함.

실험 결과

연구 질문

RQ1소프트맥스에서 0차 항을 제거하면 음수 값을 허용하는 수치적으로 안정적이고 표현력이 있는 제로-합 가중치를 얻을 수 있는가?
RQ2ZeroS가 선형시간 어텐션을 달성하면서 다양한 작업에서 표준 소프트맥스 어텐션의 성능과 동등하거나 이를 능가하는가?
RQ3방사-각도 분해와 게이팅이 선형 어텐션의 표현력과 안정성에 어떤 영향을 미치는가?
RQ4ZeroS가 RoPE와 효과적으로 통합되어 어텐션의 각도 상호작용을 보존할 수 있는가?
RQ5MAD, WikiText, 이미지 분류, 시계열 예측 등 벤치마크에서 ZeroS가 어떤 실증적 이점을 제공하는가?

주요 결과

ZeroS는 다수의 벤치마크에서 표준 소프트맥스 어텐션과 동등하거나 이를 능가하면서 선형 시간 복잡성을 유지한다.
제로 차수 항의 제거로 음수 가중치와 대조적 토큰 상호작용이 안정성을 해치지 않고 가능해졌다.
방사-각도 분해와 게이팅은 표현력을 보강하며 볼록 조합을 넘는 고차 토큰 상호작용을 가능하게 한다.
ZeroS는 MAD, WikiText-103, ImageNet-1k 스타일 작업 및 시계열 데이터에서 다른 선형 접근법보다 경쟁력 있거나 우수한 성능을 보인다.
소거 연구에서 0차 항의 재도입이 일부 맥락 내 작업에서 해를 줄 수 있으며 게이팅/정규화가 안정성과 성능에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.