[論文レビュー] Synthesizer: Rethinking Self-Attention in Transformer Models
Synthesizer は dot-product 自己注意を synthetic attention に置換し、トークン間相互作用なしにアライメントを学習します。ランダム/デンス(dense)バリアントはタスク全般で競争力があり、一部のベースラインを上回ることもあります。さらに、合成注意とドット積注意を組み合わせるとさらなる利得が得られます。
The dot product self-attention is known to be central and indispensable to state-of-the-art Transformer models. But is it really required? This paper investigates the true importance and contribution of the dot product-based self-attention mechanism on the performance of Transformer models. Via extensive experiments, we find that (1) random alignment matrices surprisingly perform quite competitively and (2) learning attention weights from token-token (query-key) interactions is useful but not that important after all. To this end, we propose extsc{Synthesizer}, a model that learns synthetic attention weights without token-token interactions. In our experiments, we first show that simple Synthesizers achieve highly competitive performance when compared against vanilla Transformer models across a range of tasks, including machine translation, language modeling, text generation and GLUE/SuperGLUE benchmarks. When composed with dot product attention, we find that Synthesizers consistently outperform Transformers. Moreover, we conduct additional comparisons of Synthesizers against Dynamic Convolutions, showing that simple Random Synthesizer is not only $60\%$ faster but also improves perplexity by a relative $3.5\%$. Finally, we show that simple factorized Synthesizers can outperform Linformers on encoding only tasks.
研究の動機と目的
- Transformers におけるドット積自己注意の必要性を問い直す。
- 合成注意(トークン依存でない注意)が言語タスク全般でどのように機能するかを調査する。
- さまざまな Synthesizer バリアント(dense、random、factorized、mixtures)を提案・評価する。
- 合成注意が従来のドット積注意および高速 Transformer 代替手法とどのように組み合わさるかを評価する。
提案手法
- QK 重み計算を、アラインメント行列を出力する合成関数 F で置換する Synthetic Attention を定義する。
- 各トークンが2層のフィードフォワードネットワークを介してシーケンス長のベクトルへ射影される Dense Synthesizer を実装する。
- 固定または学習可能なランダムアライメント行列 R とソフトマックス正規化を用いた Random Synthesizer を定義する。
- パラメータ数を削減するための因数分解バリアント(Dense および Random)と、複数のシンセサイザーを組み合わせたミックスを導入する。
- MT (WMT En-De/En-Fr)、言語モデリング(LM1B)、テキスト生成、GLUE/SuperGLUE 指標で各バリアントを評価し、Dinamic Convolutions および Linformers と比較する。
実験結果
リサーチクエスチョン
- RQ1主要な NLP タスクにおいて、ドット積自己注意は Transformer の性能に不可欠なのか?
- RQ2トークン間相互作用に依存しない合成注意機構は、従来の Transformer と同等かそれ以上の性能を発揮できるのか?
- RQ3合成注意とドット積注意の混成は、タスク全般で頑健な向上をもたらすか?
- RQ4ランダムまたは因数分解された合成注意のバリアントは、Linformers や Dynamic Convolutions などの高速 Transformer の代替とどう比較されるか?
主な発見
- Random Synthesizer は WMT 2014 English-German で 27.27 BLEU、English-French 翻訳で 41.12 BLEU を達成。
- Random Synthesizer は LM1B で Vanilla Transformer と同程度の言語モデリング perplexity を 1–2 ポイント程度上回らず競争力を持てる。
- Simple Random Synthesizers は perplexity で Dynamic Convolutions を相対約 3.5% 上回り、MLM 設定で約 60% 速い。
- Factorized Random Synthesizers は encoding-only タスクで Linformers を上回ることができる。
- 合成注意とドット積注意を組み合わせた Mixture バリアントは、複数のタスクで Transformer より一貫した性能向上を示す。
- 対話生成では、ドット積注意が性能を損なうことがある一方、Synthesizers (D) および (R) は改善をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。