QUICK REVIEW

[論文レビュー] Linear Transformers Are Secretly Fast Weight Programmers

Imanol Schlag, Kazuki Irie|arXiv (Cornell University)|Feb 22, 2021

Neural Networks and Applications被引用数 24

ひとこと要約

この論文は、1990年代のFast Weight Programmers (FWPs) と線形化された自己注意メカニズムの間で形式的な同等性を確立し、線形トランスフォーマーがキーと値の外積の加法的積み重ねを通じて高速なメモリをプログラミングすることを暗黙的に学習していることを明らかにする。動的メモリ編集と過容量領域における学習の向上を可能にする、デルタ則にインspiredされた更新メカニズムを提案する。計算コストの増加を最小限に抑えつつ、言語モデリングおよび機械翻訳タスクで最先端の性能を達成している。

ABSTRACT

We show the formal equivalence of linearised self-attention mechanisms and fast weight controllers from the early '90s, where a ``slow" neural net learns by gradient descent to program the ``fast weights" of another net through sequences of elementary programming instructions which are additive outer products of self-invented activation patterns (today called keys and values). Such Fast Weight Programmers (FWPs) learn to manipulate the contents of a finite memory and dynamically interact with it. We infer a memory capacity limitation of recent linearised softmax attention variants, and replace the purely additive outer products by a delta rule-like programming instruction, such that the FWP can more easily learn to correct the current mapping from keys to values. The FWP also learns to compute dynamically changing learning rates. We also propose a new kernel function to linearise attention which balances simplicity and effectiveness. We conduct experiments on synthetic retrieval problems as well as standard machine translation and language modelling tasks which demonstrate the benefits of our methods.

研究の動機と目的

線形化された自己注意メカニズムと1990年代初頭のモデル群であるFast Weight Programmers (FWPs) の間の形式的同等性を明らかにすること。
純粋に加法的外積更新に起因する線形トランスフォーマーにおけるメモリ容量制限を特定し、それに対処すること。
デルタ則にインspiredされた、新たな微分可能なプログラミング命令を提案し、FWPが勾配降下を用いてキーバリュー対応を動的に修正できるようにすること。
計算効率とモデル性能の両立を図る、シンプルで効果的な新しいカーネル関数を提案すること。
合成リトリーブタスクおよび標準的なNLPベンチマーク（機械翻訳および言語モデリングを含む）において、提案手法の実証的妥当性を検証すること。

提案手法

論文は、線形自己注意メカニズムが、自己生成されたキーと値の加法的外積の系列を通じて、スローネットワークが高速重みをプログラミングする仕組みとして形式的に同等であることを確立している。
純粋に加法的外積の代わりに、デルタ則に類似した更新ルールを導入し、FWPが勾配降下を用いて現在のキーバリュー対応を修正できるようにしている。
標準的な加法的更新を、誤差補正のデルタ則に類似した微分可能な命令に置き換えることで、適応的メモリ編集を可能にしている。
softmax自己注意メカニズムを線形化するための新しいカーネル関数を提案し、効率的なシーケンスモデリングに適したシンプルさと有効性のバランスを図っている。
訓練は、時間方向に切り捨てられたバックプロパゲーションを用い、セグメント間で高速重みメモリを保持しながら、勾配計算をセグメント内に限定している。
効率性を確保するため、カスタムCUDAカーネルを用いて実験を実施し、標準的な線形トランスフォーマー、Performer、Transformer-XLと比較している。

実験結果

リサーチクエスチョン

RQ11990年代のFast Weight Programmers (FWPs) と線形化された自己注意メカニズムの間には形式的同等性があるか？
RQ2線形トランスフォーマーにおける純粋に加法的外積更新の限界、特にメモリ容量に関する問題は何か？
RQ3デルタ則にインspiredされた更新ルールは、過容量領域におけるFWPの動的メモリ編集能力を向上させることができるか？
RQ4提案された自己注意線形化のためのカーネル関数は、既存の手法と比較してシンプルさと有効性の両面で優れているか？
RQ5改善されたFWPメカニズムは、標準的な言語モデリングおよび機械翻訳ベンチマークで最先端の性能を達成できるか？

主な発見

提案されたデルタ則更新を用いたデルタネットワークは、Wikitext-103でテストパープレキシティ27.4を達成し、ベースラインの線形トランスフォーマーを上回り、状態サイズがはるかに小さいにもかかわらずTransformer-XLと同等の性能を示した。
デルタネットワークは、無制限のコンテキスト長でも安定した性能を維持した。これに対して、ベースラインの線形トランスフォーマーは、単純な和の更新ルールのため、過容量条件下で性能が著しく低下した。
推論速度は1秒あたり63 Kワード（メモリ使用量13 GB）を達成し、標準的なPyTorchトランスフォーマー（33 Kワード/秒、17 GB）を上回り、Performer（57 Kワード/秒）と同等の性能を示した。
提案されたカーネル関数は、計算効率とモデル性能の両立を図る上で、有効性とシンプルさの両面で優れた線形自己注意を実現した。
FWPの視点により、モデルは動的学習率の学習やキーバリュー関連付けの選択的管理が可能になり、長文コンテキスト環境下での耐性が向上した。
合成リトリーブタスクおよび実世界のNLPベンチマークにおいて、勾配で学習されたプログラミング命令による動的メモリ編集の利点が強く確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。