QUICK REVIEW

[論文レビュー] Conv-Linformer: Boosting Linformer's Performance with Convolution in Small-Scale Settings

Sinong Wang, Belinda Z. Li|arXiv (Cornell University)|Jun 8, 2020

Neural Networks and Applications参考文献 27被引用数 880

ひとこと要約

Conv-Linformerは、畳み込み要素を組み込むことでLinformerを強化し、小規模設定における性能を向上させ、線形時間自己注意を備えた標準のTransformersと同等の結果を実現します。長い系列でも効率性の利点を維持します。

ABSTRACT

Large transformer models have shown extraordinary success in achieving state-of-the-art results in many natural language processing applications. However, training and deploying these models can be prohibitively costly for long sequences, as the standard self-attention mechanism of the Transformer uses $O(n^2)$ time and space with respect to sequence length. In this paper, we demonstrate that the self-attention mechanism can be approximated by a low-rank matrix. We further exploit this finding to propose a new self-attention mechanism, which reduces the overall self-attention complexity from $O(n^2)$ to $O(n)$ in both time and space. The resulting linear transformer, the extit{Linformer}, performs on par with standard Transformer models, while being much more memory- and time-efficient.

研究の動機と目的

Transformerの自己注意の効率性ボトルネック（シーケンス長に対して二次的であること）を動機づけ、解決する。
自己注意は低ランクな演算として近似でき、線形時間および空間計算量を達成できることを示す。
計算量を削減しつつ性能を維持する畳み込み支援型のLinformerの派生を提案する。
標準のTransformersと同等の事前学習および下流タスクの性能を、効率性の向上とともに経験的に示す。

提案手法

自己注意のコンテキストマッピング行列が層やヘッドを横断するスペクトラム分析により低ランクであることを示す。
キーと値に射影行列EとFを導入して線形自己注意機構を提案し、k << nのときO(nk)の計算を生み出す。
適切なkを選べば、この近似がP·VW^Vに対してε誤差を達成することを示す理論的保証を提供する。
パラメータ共有や層間/ヘッド間での非一様な射影次元など、実践的な効率化技術を探る。
BookCorpus+Wikipediaで MLM 目的で事前学習を行い、GLUEタスクとIMDBでファインチューニングして、Transformersのベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1標準のTransformerにおける自己注意は実質的に低ランクであり、正確な低ランク近似を可能にするのか？
RQ2線形時間の自己注意機構は標準的なNLPタスクにおいて完全な自己注意の性能と同等になり得るのか？
RQ3射影次元kと共有戦略が事前学習および下流の性能に与える影響は何か？
RQ4Linformerの効率向上は、長い系列長やハードウェア制約に対して大きな精度低下なしにスケールするのか？

主な発見

自己注意のコンテキストマッピングは低ランクスペクトルを示し、ほとんどの情報は最大特異値で捉えられる。
EとFによる射影を用いた線形自己注意の派生は、nよりはるかに小さいkで複雑さをO(nk)へ削減し、線形時間計算を可能にする。
適切なk（報告設定で128–256など）で、Linformerは事前学習の困惑度や下流タスクでRoBERTa系のベースラインに匹敵する。
射影行列の層ごとの共有は、精度を維持しつつパラメータ数とメモリ使用量を削減できる。
Linformerは標準のTransformerより推論時の速度向上とメモリ節約を顕著に示し、特に長いシーケンス長で顕著。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。