[論文レビュー] A Tensorized Transformer for Language Modeling
本論文は、多線形アテンション(Multi-linear attention)を紹介する。これは、Block-Term Tensor Decomposition に基づく Transformer のマルチヘッドアテンションの圧縮であり、競争的な言語モデリングおよび翻訳性能を保ちながら高いパラメータ削減を達成する。
Latest development of neural models has connected the encoder and decoder through a self-attention mechanism. In particular, Transformer, which is solely based on self-attention, has led to breakthroughs in Natural Language Processing (NLP) tasks. However, the multi-head attention mechanism, as a key component of Transformer, limits the effective deployment of the model to a resource-limited setting. In this paper, based on the ideas of tensor decomposition and parameters sharing, we propose a novel self-attention model (namely Multi-linear attention) with Block-Term Tensor Decomposition (BTD). We test and verify the proposed attention method on three language modeling tasks (i.e., PTB, WikiText-103 and One-billion) and a neural machine translation task (i.e., WMT-2016 English-German). Multi-linear attention can not only largely compress the model parameters but also obtain performance improvements, compared with a number of language modeling approaches, such as Transformer, Transformer-XL, and Transformer with tensor train decomposition.
研究の動機と目的
- NLPにおけるリソース制約下で大規模なTransformerモデルの圧縮を動機づける。
- Block-Term Tensor Decomposition を用いてパラメータを共有し、低ランク構造を用いる Multi-linear attention を提案する。
- 圧縮アテンションを Transformer に統合し、エンドツーエンドの訓練を実証する。
- 提案手法の圧縮と計算量の影響を分析する。
- 言語モデリングのベンチマークと WMT English-German 翻訳で実証的に検証する。
提案手法
- 自己注意の出力を Tucker 分解(Single-block attention)を用いて直交基底ベクトルの線形結合として表現する。
- Q, K, V の因子行列をヘッド間で共有するように Block-Term Tensor Decomposition を用いて Multi-linear attention を構築する。
- 分割結合手順を用いて Transformer のエンコーダ/デコーダと互換性のあるマルチヘッド出力を形成する。\nTucker ベースの表現からスカラー化ドット積アテンションの再構成能力を実証する。
- 圧縮比と時間/空間計算量を分析し、同程度の性能で大幅なパラメータ削減を示す。
実験結果
リサーチクエスチョン
- RQ1Transformer のマルチヘッドアテンションは Block-Term Tensor Decomposition によって効果的に圧縮でき、性能を犠牲にしないか?
- RQ2アテンションヘッド間で因子行列を共有することで、パラメータ予算を削減した状態で競争力のある言語モデリングおよび翻訳結果を得られるか?
- RQ3提案された Multi-linear attention は、パラメータ数と perplexity/BLEU の観点で Transformer のバリアント(例: Transformer-XL、Sparse Transformer)とどのように比較されるか?
- RQ4言語モデリングにおけるコアテンソルサイズが性能と過学習の可能性に与える影響は何か?
主な発見
| モデル | PTB パラメータ数 | PTB 検証 PPL | PTB テスト PPL | WikiText-103 パラメータ数 | WikiText-103 検証 PPL | WikiText-103 テスト PPL |
|---|---|---|---|---|---|---|
| Tensorized Transformer core-1 | 12M | 60.5 | 57.9 | 85.3M | 22.7 | 20.9 |
| Tensorized Transformer core-2 | 12M | 54.25 | 49.8 | 85.3M | 19.7 | 18.9 |
- Multi-linear attention は、core-1 および core-2 構成などで顕著なパラメータ削減を達成しつつ、競争力のあるまたは優れた言語モデリング性能を維持する。
- PTB および WikiText-103 で、Tensorized Transformer core-1 および core-2 は、はるかに少ないパラメータで、いくつかの強力なベースラインと同等かそれより良い perplexity を達成する。
- One-Billion Word では、Tensorized Transformer は顕著なパラメータ効率とともに強力な perplexity を達成し、素の Transformer ベースラインを上回る。
- NMT (WMT-2016 English-German) では、Tensorized Transformer のコアは、基本的な Transformer ベースラインより高い BLEU スコアを、より少ないパラメータで提供する。
- 本手法は scaled dot-product attention を再構成でき、元の Transformer メカニズムを超えて一般化し、Transformer フレームワーク内でのエンドツーエンド訓練を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。