QUICK REVIEW

[논문 리뷰] $O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers

Chulhee Yun, Yin-Wen Chang|arXiv (Cornell University)|2020. 06. 08.

Domain Adaptation and Few-Shot Learning인용 수 25

한 줄 요약

이 논문은 각 어텐션 레이어에서 O(n)개의 연결만을 가지는 희소 트랜스포머가 O(n²)개의 연결을 가지는 밀도 높은 트랜스포머와 동일한 표현 능력을 지닌다. 저자들은 희소성 패턴과 어텐션 맵에 대한 충분조건을 제안하는 통합 이론적 프레임워크를 도입하여, 이러한 제약 조건 하에서 희소 모델의 보편 근사 가능성(universal approximability)을 증명하고, 자연어 처리(NLP) 작업에서 실험적으로도 결과를 검증하였다.

ABSTRACT

Recently, Transformer networks have redefined the state of the art in many NLP tasks. However, these models suffer from quadratic computational cost in the input sequence length $n$ to compute pairwise attention in each layer. This has prompted recent research into sparse Transformers that sparsify the connections in the attention layers. While empirically promising for long sequences, fundamental questions remain unanswered: Can sparse Transformers approximate any arbitrary sequence-to-sequence function, similar to their dense counterparts? How does the sparsity pattern and the sparsity level affect their performance? In this paper, we address these questions and provide a unifying framework that captures existing sparse attention models. We propose sufficient conditions under which we prove that a sparse attention model can universally approximate any sequence-to-sequence function. Surprisingly, our results show that sparse Transformers with only $O(n)$ connections per attention layer can approximate the same function class as the dense model with $n^2$ connections. Lastly, we present experiments comparing different patterns/levels of sparsity on standard NLP tasks.

연구 동기 및 목표

희소 트랜스포머가 밀도 높은 트랜스포머의 보편 근사 능력을 유지할 수 있는지에 대한 근본적인 질문을 다루기 위해.
희소 자기어텐션 메커니즘에서 보편 근사 가능성을 보장하는 데 필요한 희소성 패턴과 어텐션 맵에 대한 충분조건를 규명하기 위해.
각 레이어에서 O(n)개의 연결만으로도 보편 근사가 가능하다는 것을 입증하여, O(n²)개의 연결이 필수적이라는 가정에 도전하기 위해.
기존의 희소 어텐션 패턴들(예: Strided, Fixed, Star)을 동일한 이론적 프레임워크 하에서 통합하고 분석하기 위해.
다양한 희소성 패턴과 수준이 표준 NLP 벤치마크에서의 성능에 미치는 영향을 실험적으로 평가하기 위해.

제안 방법

기존의 희소성 패턴들을 일반화하여 공통 수학적 구조로 통합함으로써, 희소 트랜스포머를 분석할 수 있는 통합 프레임워크를 제안한다.
가정 1: 희소성 패턴에 대한 연결성 조건으로, 토큰 간 장거리 정보 흐름이 충분히 보장되도록 한다.
가정 2: 어텐션 맵의 확률 분포에 대한 조건으로, 안정적이고 표현력 있는 어텐션 가중치를 확보한다.
정리 1 증명: 가정 1과 2를 만족하는 희소 트랜스포머는 시퀀스 길이에 관계없이 어떤 연속적인 시퀀스-투-시퀀스 함수도 보편적으로 근사할 수 있다.
계량 2 유도: 심지어 각 레이어에서 O(n)개의 연결만을 가지는 희소 트랜스포머도 보편 근사 가능성을 확보하며, 밀도 높은 모델의 표현 능력과 동일하다.
제어된 환경에서 복사 작업, 언어 모델링, 번역, GLUE 작업에 대한 실험을 수행하여 다양한 희소성 패턴과 수준 간 성능을 비교한다.

실험 결과

연구 질문

RQ1O(n²)보다 훨씬 적은 연결을 가지는 희소 트랜스포머도 여전히 어떤 연속적인 시퀀스-투-시퀀스 함수를 보편적으로 근사할 수 있는가?
RQ2희소 트랜스포머에서 보편 근사 가능성을 보장하기 위해 필요한 희소성 패턴과 어텐션 맵의 구조적 및 확률적 조건는 무엇인가?
RQ3예: Strided, Fixed, Star와 같은 희소성 패턴의 선택은 다양한 NLP 작업에서 모델 성능에 어떤 영향을 미치는가?
RQ4O(n)개의 연결을 가지는 희소 트랜스포머가 밀도 높은 트랜스포머의 표현 능력을 따라할 수 있는가?
RQ5표준 NLP 벤치마크에서 희소성 수준, 패턴 설계, 그리고 최종 성능 사이의 상충 관계는 어떠한가?

주요 결과

계량 2에서 증명된 바와 같이, 각 어텐션 레이어에서 O(n)개의 연결만을 가지는 희소 트랜스포머도 어떤 연속적인 시퀀스-투-시퀀스 함수를 보편적으로 근사할 수 있다.
실제로 널리 사용되는 Strided, Fixed, Star 패턴들은 제안된 충분조건를 만족하므로 보편 근사 가능성이 보장된다.
합성 복사 작업에서, Strided 패턴을 사용한 Multihead 및 Sequential 구성은 각각 3-레이어와 4-레이어 모델에서 99.84%와 99.97%의 정확도를 기록하여 랜덤 및 스타 패턴을 압도했다.
WMT 번역 작업에서, Strided 및 Fixed 패턴은 밀도 높은 모델과 유사한 BLEU 점수를 기록했으며, 특히 en-de 및 de-en 번역에서 다른 패턴들보다 뛰어난 성능을 보였다.
BERT_BASE를 사용한 GLUE 작업에서, Strided 및 Fixed 패턴은 CoLA와 MRPC에서 평균 정확도가 90% 이상을 기록했고, Random 및 Star 패턴은 상당히 떨어진 성능을 보였다.
결과는 연결성과 패턴 설계의 중요성을 보여주며, 이중 방향 모델은 스타 유형 패턴에서 더 큰 이점을 얻는 반면, 자동 회귀 모델은 마스크된 어텐션으로 인해 이에 어려움을 겪는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.