QUICK REVIEW

[논문 리뷰] Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth

Yihe Dong, Jean-Baptiste Cordonnier|arXiv (Cornell University)|2021. 03. 04.

Neural Networks and Applications인용 수 90

한 줄 요약

본 논문은 순수한 셀프 어텐션 네트워크(스킵 연결이나 MLP 없이)가 깊이에 따라 출력을 이중 지수적으로 랭크-1 행렬로 수렴하게 만든다는 것을 보여준다; 스킵 연결과 MLP가 이 붕괴를 상쇄하며, 경로 분해를 통해 분석한다.

ABSTRACT

Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we prove that self-attention possesses a strong inductive bias towards "token uniformity". Specifically, without skip connections or multi-layer perceptrons (MLPs), the output converges doubly exponentially to a rank-1 matrix. On the other hand, skip connections and MLPs stop the output from degeneration. Our experiments verify the identified convergence phenomena on different variants of standard transformer architectures.

연구 동기 및 목표

트랜스포머 타입 아키텍처가 경험적 성공을 넘어 왜 작동하는지에 대한 더 깊은 이해를 촉진한다.
깊이가 증가함에 따라 셀프 어텐션 네트워크의 랭크 붕괴 동작을 입증한다.
SAN을 얕은 네트워크들의 앙상블로 분석하기 위한 경로 분해를 도입한다.
스킵 연결과 MLP가 랭크 붕괴에 어떻게 대응하는지 특성화한다.
일반적인 트랜스포머 변형에 대한 실험으로 이론적 결과를 검증한다.

제안 방법

레이어를 가로지르는 어텐션 헤드 간의 경로 합으로 SAN 출력들을 분해한다.
각 경로가 동일한 행을 가진 랭크-1 행렬로 수렴함을 보여주며, 이는 전체 랭크 붕괴로 이어진다.
단일-head 및 다중-head SAN에 대한 수렴 경계(예: Theorem 2.2 및 Theorem 2.3)를 도출한다.
랭크 붕괴를 완화하는 데 있어 건축적 구성 요소(스킵 연결, MLP, 층 정규화)의 역할을 분석한다.
SAN들을 얕은 네트워크들의 앙상블로 해석하기 위한 경로 기반 프레임워크를 개발한다.
BERT, ALBERT, XLNet과 같은 아키텍처로 이론을 실험으로 검증한다.

실험 결과

연구 질문

RQ1깊이가 증가함에 따라 순수한 셀프 어텐션이 랭크 붕괴를 초래하는가?
RQ2스킵 연결, MLP, 층 정규화와 같은 아키텍처 요소가 랭크 붕괴에 어떤 영향을 미치는가?
RQ3경로 분해 프레임워크가 SAN의 내부 메커니즘과 귀납적 편향을 드러낼 수 있는가?
RQ4표준 트랜스포머에 대한 실험 결과가 랭크 수렴에 대한 이론적 예측을 뒷받침하는가?
RQ5트랜스포머에서 폭-깊이 트레이드오프와 긴 경로 활용에 대한 실용적 함의는 무엇인가?

주요 결과

스킵 연결이 없는 셀프 어텐션 네트워크는 깊이에 따라 이중 지수적으로 동일한 행을 가진 랭크-1 출력으로 수렴한다.
스킵 연결은 경로를 실질적으로 크게 다양화하여 랭크 붕괴를 방지한다.
MLP는 리프시츠 상수를 증가시켜 랭크-1로의 수렴 속도를 늦추고 셀프 어텐션과의 줄다리기를 만든다.
이 분석에서 층 정규화는 랭크 붕괴를 완화하지 않는다.
경로 분해는 SAN이 얕은 네트워크들의 앙상블처럼 작동하고, 짧은 경로가 대부분의 표현력을 전달한다.
BERT, ALBERT, XLNet에 대한 실험은 스킵 연결을 제거하면 랭크 붕괴가 빠르게 일어남을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.