QUICK REVIEW

[논문 리뷰] Representational Strengths and Limitations of Transformers

Clayton Sanford, Daniel Hsu|arXiv (Cornell University)|2023. 06. 05.

Stochastic Gradient Optimization Techniques인용 수 12

한 줄 요약

논문은 트랜스포머의 자기 주의의 표현적 한계와 강점을 분석하여 희소 평균(sparse averaging) 작업에 대해 임베딩 차원 m이 희소성 q와 함께 스케일해야 한다는 것을 보이고, 특정 triple-wise (Match3) 작업은 표준 다-headed 주의에서는 여전히 어렵고, 더 높은 차원이나 구조화된 변형이 필요하다.

ABSTRACT

Attention layers, as commonly used in transformers, form the backbone of modern deep learning, yet there is no mathematical description of their benefits and deficiencies as compared with other architectures. In this work we establish both positive and negative results on the representation power of attention layers, with a focus on intrinsic complexity parameters such as width, depth, and embedding dimension. On the positive side, we present a sparse averaging task, where recurrent networks and feedforward networks all have complexity scaling polynomially in the input size, whereas transformers scale merely logarithmically in the input size; furthermore, we use the same construction to show the necessity and role of a large embedding dimension in a transformer. On the negative side, we present a triple detection task, where attention layers in turn have complexity scaling linearly in the input size; as this scenario seems rare in practice, we also present natural variants that can be efficiently solved by attention layers. The proof techniques emphasize the value of communication complexity in the analysis of transformers and related models, and the role of sparse averaging as a prototypical attention task, which even finds use in the analysis of triple detection.

연구 동기 및 목표

주의(attention) 계층의 표현력은 너비, 깊이 및 임베딩 차원에 비례하여 조사한다.
자기 주의의 강점(희소 평균)과 한계(쌍 항과 삼중 항 상호작용)를 강조하는 작업 식별.
트랜스포머 표현력을 특징짓기 위한 형식적 작업 벤치마크(q-SA, Match2, Match3) 개발.
주의 기반 모델의 하한과 상한을 도출하기 위해 통신 복잡도와 기하학적 구성 사용.

제안 방법

입력 요소 간의 상호 작용 패턴을 포착하기 위해 q-희소 평균(q-SA)을 정의하고 임베딩 차원 요구 사항을 분석한다.
임베딩 m ≳ q인 주의 단위가 q-SA를 근사할 수 있음을 유한 정밀도 및 무한 정밀도에서 보이는 상한을 증명한다.
집합 분리성(set-disjointness) 감소를 통해 mp가 너무 작을 때 q-SA를 근사할 수 있는 작은 주의 아키텍처가 없음을 보여주는 하한을 확립한다.
쌍상(Match2)과 삼중(Match3) 탐지 작업을 대조하여 표준 자기 주의가 고차 상호작용을 표현하는 능력을 평가한다.
단일 자기 주의 단위가 Match2를 효율적으로 계산할 수 있음을 보이고, 임베딩 크기나 헤드의 수가 다항식적으로 증가하지 않으면 단일 다-헤드 계층이 Match3를 효율적으로 계산할 수 없음을 보인다.
제3차 주의(third-order attention)를 통해 Match3를 효율적으로 계산하는 방법을 논의하고 힌트 없이 더 깊은 트랜스포머는 여전히 제한될 것이라고 추측한다.

실험 결과

연구 질문

RQ1제한된 임베딩 차원으로도 자기 주의 단위가 q-희소 평균을 근사할 수 있는가, 그리고 m은 q와 N에 따라 어떻게 스케일하는가?
RQ2표준 트랜스포머 아키텍처가 쌍 항(Match2) 및 삼중 항(Match3) 상호작용을 효율적으로 표현할 수 있는가, 필요한 자원은 무엇인가?
RQ3삼중 탐지에서 다-헤드 주의의 한계는 무엇이고, 고차 주의가 이러한 한계를 우회할 수 있는가?
RQ4통신 복잡도에서의 하한이 트랜스포머의 표현 한계에 어떻게 정보를 주는가?

주요 결과

q-SA는 임베딩 m ≳ d' + q log N(유한 정밀도) 및 m ≳ d' + q(무한 정밀도)인 자기 주의 단위에 의해 ε-근사될 수 있다.
q-SA를 근사하는 모든 완전연결 NN은 첫 번째 은닉층 너비 Ω(Nd)을 필요로 한다.
q-SA를 근사하는 모든 RNN은 Ω(N) 비트의 은닉 상태를 필요로 한다.
단일 자기 주의 단위가 Match2를 효율적으로 계산할 수 있지만, mp 또는 m 또는 H가 크게(다항식적으로) 커지지 않는 한 단일 다-헤드 주의 계층은 Match3를 효율적으로 계산할 수 없다.
지역성(locality) 또는 임베딩 구조 가정하에 수정된 Match3를 효율적으로 계산할 수 있으며, 일반화된 제3차 주의는 Match3를 효율적으로 계산할 수 있다.
경험적 증거(Appendix D)는 주의가 RNN/MLP보다 훨씬 적은 샘플로도 q-SA를 학습할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.