Skip to main content
QUICK REVIEW

[논문 리뷰] ZeroS: Zero-Sum Linear Attention for Efficient Transformers

Jiecheng Lu, Xu Han|arXiv (Cornell University)|2026. 02. 05.
Stochastic Gradient Optimization Techniques인용 수 0
한 줄 요약

ZeroS는 소프트맥스의 0차 항을 제거하는 제로-합 선형 어텐션을 도입하여 음수 가중치와 대조적 토큰 상호작용을 가능하게 하면서도 O(N) 복잡도를 유지합니다; 벤치마크 전반에서 소프트맥스 어텐션과 동등하거나 이를 능가합니다.

ABSTRACT

Linear attention methods offer Transformers $O(N)$ complexity but typically underperform standard softmax attention. We identify two fundamental limitations affecting these approaches: the restriction to convex combinations that only permits additive information blending, and uniform accumulated weight bias that dilutes attention in long contexts. We propose Zero-Sum Linear Attention (ZeroS), which addresses these limitations by removing the constant zero-order term $1/t$ and reweighting the remaining zero-sum softmax residuals. This modification creates mathematically stable weights, enabling both positive and negative values and allowing a single attention layer to perform contrastive operations. While maintaining $O(N)$ complexity, ZeroS theoretically expands the set of representable functions compared to convex combinations. Empirically, it matches or exceeds standard softmax attention across various sequence modeling benchmarks.

연구 동기 및 목표

  • 선형 어텐션 접근법의 볼록성(convexity) 및 균일 가중치 바이어스에 관련된 근본적 한계 식별.
  • 음의 가중치와 대조적 업데이트를 지원하는 선형시간 어텐션 메커니즘 개발.
  • 다양한 시퀀스 모델링 작업에서 ZeroS가 소프트맥스 어텐션과 동등하거나 이를 능가함을 입증.
  • 제로-합 어텐션 형식의 안정성과 표현성에 대한 이론적 보장을 제공.

제안 방법

  • Softmax에서 0차 항(1/t)을 제거하고 잔차를 재가중하여 제로-합 가중치를 얻도록 제안.
  • 크기와 방향을 분리하고 학습 가능한 게이트를 1차 및 고차 소프트맥스 잔차에 적용한 뒤 부호화된 cos(theta) 항을 다시 도입하여 방사-각도 분해를 도입.
  • 첫 번째 차수 및 고차 구성요소를 제어하는 두 개의 게이트로 재가중된 제로-합 소프트맥스를 형식화하여 접두합(prefix sums)을 통한 선형시간 계산 가능.
  • RoPE를 통합하여 각도 정보를 도입하고 어텐션 가중치의 제로-합 특성을 보존.
  • 세분화된 로짓과 접두합 기반 계산으로 O(N d^2) 시간 및 O(d^2) 메모리를 유지하여 효율적 학습과 추론을 가능하게 함.

실험 결과

연구 질문

  • RQ1소프트맥스에서 0차 항을 제거하면 음수 값을 허용하는 수치적으로 안정적이고 표현력이 있는 제로-합 가중치를 얻을 수 있는가?
  • RQ2ZeroS가 선형시간 어텐션을 달성하면서 다양한 작업에서 표준 소프트맥스 어텐션의 성능과 동등하거나 이를 능가하는가?
  • RQ3방사-각도 분해와 게이팅이 선형 어텐션의 표현력과 안정성에 어떤 영향을 미치는가?
  • RQ4ZeroS가 RoPE와 효과적으로 통합되어 어텐션의 각도 상호작용을 보존할 수 있는가?
  • RQ5MAD, WikiText, 이미지 분류, 시계열 예측 등 벤치마크에서 ZeroS가 어떤 실증적 이점을 제공하는가?

주요 결과

  • ZeroS는 다수의 벤치마크에서 표준 소프트맥스 어텐션과 동등하거나 이를 능가하면서 선형 시간 복잡성을 유지한다.
  • 제로 차수 항의 제거로 음수 가중치와 대조적 토큰 상호작용이 안정성을 해치지 않고 가능해졌다.
  • 방사-각도 분해와 게이팅은 표현력을 보강하며 볼록 조합을 넘는 고차 토큰 상호작용을 가능하게 한다.
  • ZeroS는 MAD, WikiText-103, ImageNet-1k 스타일 작업 및 시계열 데이터에서 다른 선형 접근법보다 경쟁력 있거나 우수한 성능을 보인다.
  • 소거 연구에서 0차 항의 재도입이 일부 맥락 내 작업에서 해를 줄 수 있으며 게이팅/정규화가 안정성과 성능에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.