Skip to main content
QUICK REVIEW

[논문 리뷰] A Tensorized Transformer for Language Modeling

Xindian Ma, Peng Zhang|arXiv (Cornell University)|2019. 06. 24.
Topic Modeling참고 문헌 39인용 수 61
한 줄 요약

논문은 Multi-linear attention을 도입하고, Transformer 다중-head attention의 Block-Term Tensor Decomposition 기반 압축으로 파라미터 감소를 크게 달성하며 언어 모델링 및 번역 성능이 경쟁력 있음을 보인다.

ABSTRACT

Latest development of neural models has connected the encoder and decoder through a self-attention mechanism. In particular, Transformer, which is solely based on self-attention, has led to breakthroughs in Natural Language Processing (NLP) tasks. However, the multi-head attention mechanism, as a key component of Transformer, limits the effective deployment of the model to a resource-limited setting. In this paper, based on the ideas of tensor decomposition and parameters sharing, we propose a novel self-attention model (namely Multi-linear attention) with Block-Term Tensor Decomposition (BTD). We test and verify the proposed attention method on three language modeling tasks (i.e., PTB, WikiText-103 and One-billion) and a neural machine translation task (i.e., WMT-2016 English-German). Multi-linear attention can not only largely compress the model parameters but also obtain performance improvements, compared with a number of language modeling approaches, such as Transformer, Transformer-XL, and Transformer with tensor train decomposition.

연구 동기 및 목표

  • 자원 제한 환경에서 대규모 Transformer 모델의 압축 필요성을 제시한다.
  • 매개변수를 공유하고 저랭크 구조를 활용하기 위해 Block-Term Tensor Decomposition을 사용한 Multi-linear attention를 제안한다.
  • 압축된 어텐션을 Transformer에 통합하고 엔드-투-엔드 학습을 시연한다.
  • 제안한 방법의 압축 및 계산 복잡도 영향 분석을 수행한다.
  • 언어 모델링 벤치마크 및 WMT 영어-독일어 번역에서 실증적으로 검증한다.

제안 방법

  • Tucker 분해를 통해 자기 어텐션 출력을 직교 기저 벡터의 선형 결합으로 표현한다(단일 블록 어텐션).
  • Q, K, V의 인자 행렬을 헤드 간 공유하기 위해 Block-Term Tensor Decomposition을 사용하여 Multi-linear attention을 구성한다.
  • Transformer의 인코더/디코더와 호환되도록 multi-head 출력을 형성하기 위한 split-concatenate 절차를 수행한다. Tucker 기반 표현으로부터 스케일드 닷-프로덕트 어텐션의 재구성 가능성을 시연한다.
  • 압축 비율 및 시간/공간 복잡도 분석을 수행하여 비슷한 성능으로 파라미터 감소를 크게 보여준다.

실험 결과

연구 질문

  • RQ1Transformer의 다중-head 어텐션을 Block-Term Tensor Decomposition으로 효과적으로 압축하되 성능 저하 없이 가능할까?
  • RQ2어텐션 헤드 간에 인자 행렬을 공유하는 것이 파라미터 예산이 줄어든 상태에서 경쟁력 있는 언어 모델링 및 번역 결과를 제공하는가?
  • RQ3제안된 Multi-linear attention가 파라미터 수 및 perplexity/BLEU 측면에서 Transformer-XL, Sparse Transformer 등의 변형과 어떻게 비교되는가?
  • RQ4언어 모델링에서 코어 텐서 크기가 성능과 과적합 가능성에 미치는 영향은 무엇인가?

주요 결과

모델PTB 파라미터PTB 검증 PPLPTB 테스트 PPLWikiText-103 파라미터WikiText-103 검증 PPLWikiText-103 테스트 PPL
Tensorized Transformer core-112M60.557.985.3M22.720.9
Tensorized Transformer core-212M54.2549.885.3M19.718.9
  • Multi-linear attention은 core-1 및 core-2 구성에서 상당한 파라미터 감소를 달성하면서도 경쟁력 있거나 우수한 언어 모델링 성능을 유지한다.
  • PTB 및 WikiText-103에서 Tensorized Transformer core-1 및 core-2는 훨씬 적은 파라미터로 여러 강력한 기준선과 같거나 더 나은 perplexity를 달성한다.
  • One-Billion Word에서 Tensorized Transformer는 주목할 만한 파라미터 효율성과 함께 강력한 perplexity를 달성하고 vanilla Transformer 기본 모델들을 능가한다.
  • NMT (WMT-2016 English-German)에서 Tensorized Transformer 코어는 기본 Transformer baseline보다 BLEU 점수가 높으면서도 파라미터를 더 적게 사용한다.
  • 이 방법은 스케일드 닷-프로덕트 어텐션의 재구성이 가능하고 원래 Transformer 메커니즘을 넘어 일반화되어 Transformer 프레임워크 내에서 엔드-투-엔드 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.