Skip to main content
QUICK REVIEW

[논문 리뷰] Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth

Yihe Dong, Jean-Baptiste Cordonnier|arXiv (Cornell University)|2021. 03. 04.
Neural Networks and Applications인용 수 90
한 줄 요약

본 논문은 순수한 셀프 어텐션 네트워크(스킵 연결이나 MLP 없이)가 깊이에 따라 출력을 이중 지수적으로 랭크-1 행렬로 수렴하게 만든다는 것을 보여준다; 스킵 연결과 MLP가 이 붕괴를 상쇄하며, 경로 분해를 통해 분석한다.

ABSTRACT

Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we prove that self-attention possesses a strong inductive bias towards "token uniformity". Specifically, without skip connections or multi-layer perceptrons (MLPs), the output converges doubly exponentially to a rank-1 matrix. On the other hand, skip connections and MLPs stop the output from degeneration. Our experiments verify the identified convergence phenomena on different variants of standard transformer architectures.

연구 동기 및 목표

  • 트랜스포머 타입 아키텍처가 경험적 성공을 넘어 왜 작동하는지에 대한 더 깊은 이해를 촉진한다.
  • 깊이가 증가함에 따라 셀프 어텐션 네트워크의 랭크 붕괴 동작을 입증한다.
  • SAN을 얕은 네트워크들의 앙상블로 분석하기 위한 경로 분해를 도입한다.
  • 스킵 연결과 MLP가 랭크 붕괴에 어떻게 대응하는지 특성화한다.
  • 일반적인 트랜스포머 변형에 대한 실험으로 이론적 결과를 검증한다.

제안 방법

  • 레이어를 가로지르는 어텐션 헤드 간의 경로 합으로 SAN 출력들을 분해한다.
  • 각 경로가 동일한 행을 가진 랭크-1 행렬로 수렴함을 보여주며, 이는 전체 랭크 붕괴로 이어진다.
  • 단일-head 및 다중-head SAN에 대한 수렴 경계(예: Theorem 2.2 및 Theorem 2.3)를 도출한다.
  • 랭크 붕괴를 완화하는 데 있어 건축적 구성 요소(스킵 연결, MLP, 층 정규화)의 역할을 분석한다.
  • SAN들을 얕은 네트워크들의 앙상블로 해석하기 위한 경로 기반 프레임워크를 개발한다.
  • BERT, ALBERT, XLNet과 같은 아키텍처로 이론을 실험으로 검증한다.

실험 결과

연구 질문

  • RQ1깊이가 증가함에 따라 순수한 셀프 어텐션이 랭크 붕괴를 초래하는가?
  • RQ2스킵 연결, MLP, 층 정규화와 같은 아키텍처 요소가 랭크 붕괴에 어떤 영향을 미치는가?
  • RQ3경로 분해 프레임워크가 SAN의 내부 메커니즘과 귀납적 편향을 드러낼 수 있는가?
  • RQ4표준 트랜스포머에 대한 실험 결과가 랭크 수렴에 대한 이론적 예측을 뒷받침하는가?
  • RQ5트랜스포머에서 폭-깊이 트레이드오프와 긴 경로 활용에 대한 실용적 함의는 무엇인가?

주요 결과

  • 스킵 연결이 없는 셀프 어텐션 네트워크는 깊이에 따라 이중 지수적으로 동일한 행을 가진 랭크-1 출력으로 수렴한다.
  • 스킵 연결은 경로를 실질적으로 크게 다양화하여 랭크 붕괴를 방지한다.
  • MLP는 리프시츠 상수를 증가시켜 랭크-1로의 수렴 속도를 늦추고 셀프 어텐션과의 줄다리기를 만든다.
  • 이 분석에서 층 정규화는 랭크 붕괴를 완화하지 않는다.
  • 경로 분해는 SAN이 얕은 네트워크들의 앙상블처럼 작동하고, 짧은 경로가 대부분의 표현력을 전달한다.
  • BERT, ALBERT, XLNet에 대한 실험은 스킵 연결을 제거하면 랭크 붕괴가 빠르게 일어남을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.