QUICK REVIEW

[논문 리뷰] Convolution, attention and structure embedding

Jean‐Marc Andreoli|arXiv (Cornell University)|2019. 05. 03.

Stochastic Gradient Optimization Techniques참고 문헌 20인용 수 19

한 줄 요약

이 논문은 텐서 연산과 혼합 곱을 기반으로 한 단일 연산자의 특수한 경우로서 컨볼루션, 어텐션, 구조 임베딩을 일반화하는 통합 수학적 프레임워크를 제안한다. 어텐션 메커니즘은 적응형이며 학습 가능한 컨볼루션과 동치임을 보이며, 트랜스포머의 위치 인코딩은 더 해석 가능하게 순서를 모델링하기 위해 명시적이고 학습 가능한 이동 행렬로 대체될 수 있음을 제안한다.

ABSTRACT

Deep neural networks are composed of layers of parametrised linear operations intertwined with non linear activations. In basic models, such as the multi-layer perceptron, a linear layer operates on a simple input vector embedding of the instance being processed, and produces an output vector embedding by straight multiplication by a matrix parameter. In more complex models, the input and output are structured and their embeddings are higher order tensors. The parameter of each linear operation must then be controlled so as not to explode with the complexity of the structures involved. This is essentially the role of convolution models, which exist in many flavours dependent on the type of structure they deal with (grids, networks, time series etc.). We present here a unified framework which aims at capturing the essence of these diverse models, allowing a systematic analysis of their properties and their mutual enrichment. We also show that attention models naturally fit in the same framework: attention is convolution in which the structure itself is adaptive, and learnt, instead of being given a priori.

연구 동기 및 목표

컨볼루션, 어텐션, 구조 임베딩와 같은 다양한 딥러닝 연산을 단일 수학적 프레임워크 아래 통합하기.
가중치가 부여된 그래프와 텐서 기반 표현을 사용하여 신경망 내의 구조적 의존성을 공식화하기.
저랭크 분해를 통해 어텐션과 컨볼루션의 파rameter 효율성의 역할을 분석하기.
트랜스포머의 위치 인코딩이 더 해석 가능하고 성능이 우수한 인덱스 기반 기저 행렬로 대체될 수 있는지 조사하기.
어텐션 메커니즘이 사전에 정의된 것이 아니라 학습되는 구조를 가진 컨볼루션의 한 형태임을 보여주기.

제안 방법

가중치가 부여된 그래프의 가족으로 표현된 임의의 구조에 대해 일반화된 컨볼루션 연산자 제안.
고차원 텐서를 인수분해하고 저랭크 제약을 강제하기 위해 혼합 곱 연산 $\boldsymbol{a} \circ \boldsymbol{b} = \sum_k \boldsymbol{a}_k \otimes \boldsymbol{b}_k $ 을 도입.
분석을 위해 고차원 연산을 행렬 형태로 매핑하기 위해 텐서 평탄화와 매트리시제이션을 사용.
역행성 성질 적용: $\boldsymbol{a}$ 가 형상 $S$ 의 기저를 이룰 경우, 형상 $ST$ 의 임의의 텐서 $\boldsymbol{\Phi}$ 는 유일하게 $\boldsymbol{\Phi} = \boldsymbol{a} \circ \boldsymbol{\Theta}$ 로 표현 가능.
트랜스포머의 자체 어텐션과 크로스 어텐션을 공유된 파arameter화된 이차형식으로 재해석하여, 인수분해를 통해 파라미터 수를 감소.
복잡한 학습된 임베딩을 피하기 위해 위치 인코딩을 명시적이고 학습 가능한 이동 행렬(1D 격자 컨볼루션 기저)로 대체하여 토큰 순서를 직접 모델링.

실험 결과

연구 질문

RQ1컨볼루션, 어텐션, 구조 임베딩가 단일 텐서 기반 프레임워크 아래 공식적으로 통합될 수 있는가?
RQ2혼합 곱 연산이 신경망 레이어에서 저랭크 근사와 파라미터 효율성에 어떻게 기여하는가?
RQ3어떤 정도까지 어텐션 메커니즘은 학습된 구조를 가진 적응형 컨볼루션의 한 형태로 볼 수 있는가?
RQ4트랜스포머의 위치 인코딩의 기능적 역할은 무엇이며, 이를 명시적이고 학습 가능한 기저 행렬로 대체할 수 있는가?
RQ5학습된 트랜스포머 어텐션 헤드가 자연스럽게 이동 행렬을 모방하는가? 만약 그렇다면, 이는 더 직접적인 대체 방법을 시사하는가?

주요 결과

논문은 어텐션이 사전에 고정된 것이 아니라 적응형이며 학습 가능한 구조를 가진 컨볼루션과 동치임을 확립한다.
트랜스포머의 스케일된 디트-프로덕트 어텐션 메커니즘은 특정한 저랭크 분해를 가진 매개변수 행렬 $\boldsymbol{\Lambda}_k$ 를 가진 이차형 어텐션 메커니즘과 수학적으로 동치이다.
여러 어텐션 헤드를 조합하는 트랜스포머의 최종 출력 레이어는 동일한 인수분해 원칙에 의해 제약을 받는 공유된 선형 투영을 가진 가중치 합으로 수학적으로 동치이다.
프레임워크는 $\boldsymbol{a}$ 가 형상 $S$ 의 텐서 공간의 기저를 이룰 경우, 형상 $ST$ 의 임의의 텐서 $\boldsymbol{\Phi}$ 가 유일하게 $\boldsymbol{a} \circ \boldsymbol{\Theta}$ 로 분해될 수 있음을 증명한다.
실험적 증거는 학습된 트랜스포머 어텐션 헤드가 자주 이동 행렬처럼 행동함을 시사하며, 이러한 연산이 직접적으로 학습 가능한 기저 행렬을 통해 모델링될 수 있음을 뒷받침한다.
위치 인코딩을 명시적이고 학습 가능한 이동 행렬로 대체함으로써, 순서 모델링을 위한 학습된 임베딩보다 더 해석 가능하고 잠재적으로 더 효율적인 대안을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.