QUICK REVIEW

[論文レビュー] Talking-Heads Attention

Noam Shazeer, Zhenzhong Lan|arXiv (Cornell University)|Mar 5, 2020

Topic Modeling参考文献 9被引用数 49

ひとこと要約

talking-heads attentionを導入する。これはsoftmaxの前後で注意ヘッド次元に沿って学習された線形射影を用いる、マルチヘッド注意の派生形であり、追加パラメータを控えめにしつつ困惑度(perplexity)と下流タスクの性能を向上させる。

ABSTRACT

We introduce "talking-heads attention" - a variation on multi-head attention which includes linearprojections across the attention-heads dimension, immediately before and after the softmax operation.While inserting only a small number of additional parameters and a moderate amount of additionalcomputation, talking-heads attention leads to better perplexities on masked language modeling tasks, aswell as better quality when transfer-learning to language comprehension and question answering tasks.

研究の動機と目的

従来のマルチヘッド注意の限界を動機づけ、それぞれのヘッド固有の射影がヘッド数が小さすぎると表現力を低下させる可能性がある点に対処する。
注意ヘッド間の情報交換をヘッド次元に沿った学習済み射影を介して可能にする機構を提案する。
言語モデリングおよび理解ベンチマークの事前学習およびファインチューニングタスクにおける実証的利益を示す。
標準のマルチヘッド注意と比較した新機構の分析と複雑さの検討を提供する。

提案手法

softmaxの前後で注意ヘッドを結びつけ、cross-head情報交換を可能にする2つの追加の学習済み線形射影（P_lとP_w）を導入する。
TalkingHeadsAttentionを、クエリ/キーの三つのヘッド次元(h_k)、ロジット/ウェイトのヘッド次元(h)、値のヘッド次元(h_v)を持つマルチヘッド注意の一般化として定義し、2つの同等の定式化（簡潔と明示）を示す。
計算コストを導出し、talking-heads射影は標準コストに項を追加するが、h_k, h, h_vが適切に選択される場合には有利になることを示す。
標準MHAとtalking-headsを、一般的な二重線形マルチヘッド注意の特別な場合として結ぶ統一的な視点（GBMA）を提供する。
Text-to-Text Transfer Transformer (T5)、ALBERT、およびBERTスタイルの設定を用いて、事前学習の困惑度と下流タスクでマルチヘッドとtalking-headsを比較する実験を行う。

実験結果

リサーチクエスチョン

RQ1クロスヘッド射影を注入することで、事前学習タスクにおけるモデルの困惑度が標準のマルチヘッド注意と比較して改善されるか？
RQ2talking-headsはエンコーダ/デコーダの構成要素およびさまざまなヘッド次元の設定で一貫した利得を提供するか？
RQ3talking-heads注意と従来のマルチヘッド注意を使用する際の複雑さとハードウェア効率のトレードオフは何か？
RQ4実務上、投影の粒度（ロジット/ウェイト）および動的 vs 静的射影とtalking-headsの相互作用はどうなるか？
RQ5talking-heads注意の利点は、BERTやALBERTのような広く使用されているアーキテクチャへ伝搬できるか？

主な発見

talking-heads注意は、いくつかのヘッドサイズ構成の下で、マスクド言語モデリングタスクにおける困惑度を標準のマルチヘッド注意より改善する。
softmax-heads次元hを増やすと顕著な改善が得られることが多い一方、非常に小さなキー/バリュー次元(d_k, d_v)は従来のMHAで性能低下を招く可能性があるが、talking-headsでは緩和される。
エンコーダ自己注意にtalking-headsを適用すると、いくつかの設定でデコーダ注意に適用するより下流の利得が大きい。
3つの別々のヘッド次元(h_k, h, h_v)を設定し、ロジットとウェイトの両方の射影を使用することで、多くの実験（例：T5やALBERT）で最も大きな改善をもたらす。
動的射影は事前学習の困惑度を低減できるが、実験では下流タスクの一貫した改善にはつながらなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。