QUICK REVIEW

[논문 리뷰] Are Transformers universal approximators of sequence-to-sequence functions?

Chulhee Yun, Srinadh Bhojanapalli|arXiv (Cornell University)|2019. 12. 20.

Neural Networks and Applications참고 문헌 25인용 수 74

한 줄 요약

논문은 Transformers가 연속적 퍼뮤테이션-동등 시퀀스-투-시퀀스 함수의 컴팩트 서포트를 가지는 연속 함수들의 보편 근사자임을 증명하고, trainable positional encodings와 함께 콤팩트 도메인에서 임의의 연속 시퀀스-투-시퀀스 함수를 근사할 수 있으며, self-attention과 feed-forward 레이어의 서로 다른 역할을 명확히 하고, 더 간단한 contextual-mapping 아키텍처를 탐구한다.

ABSTRACT

Despite the widespread adoption of Transformer models for NLP tasks, the expressive power of these models is not well-understood. In this paper, we establish that Transformer models are universal approximators of continuous permutation equivariant sequence-to-sequence functions with compact support, which is quite surprising given the amount of shared parameters in these models. Furthermore, using positional encodings, we circumvent the restriction of permutation equivariance, and show that Transformer models can universally approximate arbitrary continuous sequence-to-sequence functions on a compact domain. Interestingly, our proof techniques clearly highlight the different roles of the self-attention and the feed-forward layers in Transformers. In particular, we prove that fixed width self-attention layers can compute contextual mappings of the input sequences, playing a key role in the universal approximation property of Transformers. Based on this insight from our analysis, we consider other simpler alternatives to self-attention layers and empirically evaluate them.

연구 동기 및 목표

Transformer 네트워크의 시퀀스-투-시퀀스 매핑에 대한 표현력에 대한 형식적 이해를 제공한다.
Permutation-equivariance 하에서 Transformer가 보편적으로 근사할 수 있는 함수의 클래스를 특징지운다.
positional encodings가 순열 제약을 제거하고 콤팩트 도메인에서 임의의 연속 seq-to-seq 함수로의 보편성을 확장하는 방법을 제시한다.
컨텍스트 매핑을 형식화하고 self-attention이 이를 구현할 수 있음을 보인다.
컨텍스트 매핑을 구현하는 대체 아키텍처를 평가하고 실험적 성능을 평가한다.

제안 방법

F_PE 클래스 정의: 연속적 퍼뮤테이션-동등 시퀀스-투-시퀀스 함수들로 구성되며 컴팩트 서포트를 가지는 함수 계층.
정리 2(Theorem 2) 증명: 고정 너비 h=2, m=1, r=4의 Transformer가 F_PE의 모든 f를 보편적으로 근사한다.
Trainable positional encodings 도입 및 정리 3(Theorem 3) 증명: positional encodings를 가진 Transformer가 콤팩트 도메인에서 임의의 연속 함수 f를 보편적으로 근사한다(F_CD).
컨텍스트 매핑을 형식화하고 self-attention 레이어가 이를 구현할 수 있음을 보임(lemma 6).
보편 근사성을 위한 3단계 증명 개요 제시: (i) 연속 함수를 조각별 상수 함수로 근사, (ii) 이를 수정된 Transformer로 근사, (iii) 수정된 Transformer를 표준 아키텍처로 근사.
self-attention의 고유한 역할(컨텍스트 매핑)과 피드-forward 레이어의 가치 매핑의 역할을 구분하여 보편 근사성 주장에 기여한다.

실험 결과

연구 질문

RQ1토큰 간 매개변수 공유를 가정할 때 Transformer 네트워크는 어떤 시퀀스-투-시퀀스 함수 클래스를 표현할 수 있는가?
RQ2Transformers가 연속적인 퍼뮤테이션-동등 시퀀스-투-시퀀스 함수를 보편적으로 근사하는가, 그리고 positional encodings가 이를 콤팩트 도메인에서 임의의 연속 seq-to-seq 함수로 확장할 수 있는가?
RQ3컨텍스트 매핑의 역할은 보편 근사를 가능하게 하는가, 그리고 대체 아키텍처가 이러한 매핑을 구현할 수 있는가?
RQ4셀프 어텐션과 피드포워드 구성 요소가 근사 능력에 어떻게 기여하며, self-attention 없이도 보편성을 잃지 않고 더 간단한 레이어로 대체할 수 있는가?

주요 결과

Transformer 블록은 permutation-equivariant이며 고정 매개변수 공유와 함께 작동할 때 콤팩트 서포트를 가진 연속 퍼뮤테이션-동등 시퀀스-투-시퀀스 함수의 보편 근사를 할 수 있다(Theorem 2).
Trainable positional encodings를 사용하면 Transformers가 콤팩트 도메인에서 임의의 연속 시퀀스-투-시퀀스 함수를 보편적으로 근사할 수 있다(Theorem 3).
Self-attention 레이어는 컨텍스트 매핑을 구현할 수 있어 입력 전체 컨텍스트에 의존하는 토큰별 출력을 가능하게 한다(Lemma 6 및 관련 논의).
피드-forward 레이어는 토큰별로 작동하여 컨텍스트 표현을 원하는 출력 값으로 매핑하고, 컨텍스트 매핑과 결합될 때 보편 근사를 가능하게 한다(Proposition/Lemma 체인).
임의의 함수를 조각별 상수 대리자로 근사하는 3단계 증명 과정을 통해, 수정된 Transformer를 거쳐 표준 Transformer로 근사하는 방법을 제시한다(섹션 3 및 부록).
저자들은 이진 선형 projection, 분리 가능한 컨볼루션 등 대체 컨텍스트 매핑 아키텍처를 탐구하고 이를 Transformer와 결합했을 때 경험적 개선이 보고되었다고 언급한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.