QUICK REVIEW

[論文レビュー] Are Sixteen Heads Really Better than One?

Paul Michel, Omer Levy|arXiv (Cornell University)|May 25, 2019

Topic Modeling参考文献 33被引用数 45

ひとこと要約

本論文は、トランスフォーマーの多くのアテンションヘッドをテスト時に剪定しても性能の低下が最小限で済むか、全くない場合があることを示しており、時には層を単一ヘッドにまで減らすことができ、推論速度を大幅に向上させることもある。

ABSTRACT

Attention is a powerful and ubiquitous mechanism for allowing neural models to focus on particular salient pieces of information by taking their weighted average when making predictions. In particular, multi-headed attention is a driving force behind many recent state-of-the-art NLP models such as Transformer-based MT models and BERT. These models apply multiple attention mechanisms in parallel, with each attention "head" potentially focusing on different parts of the input, which makes it possible to express sophisticated functions beyond the simple weighted average. In this paper we make the surprising observation that even if models have been trained using multiple heads, in practice, a large percentage of attention heads can be removed at test time without significantly impacting performance. In fact, some layers can even be reduced to a single head. We further examine greedy algorithms for pruning down models, and the potential speed, memory efficiency, and accuracy improvements obtainable therefrom. Finally, we analyze the results with respect to which parts of the model are more reliant on having multiple heads, and provide precursory evidence that training dynamics play a role in the gains provided by multi-head attention.

研究の動機と目的

訓練済みのトランスフォーマーモデルにおけるマルチヘッドアテンションの必要性を実証的に検討する動機付け。
機械翻訳と自然言語推論において、パフォーマンスに必須なアテンションヘッドの数を定量化する。
再学習なしに重要度の低いヘッドを同定して削除する剪定戦略を開発する。
エンコーダ-エンコーダ、エンコーダ-デコーダ、デコーダ-デコーダの各アテンション成分と学習ダイナミクス全体にわたるヘッド剪定の影響を分析する。

提案手法

マルチヘッドアテンション内の個々のアテンションヘッドを無効化するマスキング機構を定義する。
単一ヘッドを削除した場合と、層全体を1ヘッドに削減した場合の性能を評価する。
前方/後方伝搬を用いて推定された、ヘッドマスキングに対する損失の感度の期待値に基づく重要度スコア I_h を提案する。
I_h（または代理）に基づいてヘッドを並べ替え、段階的に剪定して累積効果を検証する、反復的な剪定を実施する。
剪定効果を比較するモデルとして、WMT英語→フランス語TransformerとMNLIのBERT-baseという2つの確立されたモデルを比較する。
GPU上での性能（BLEU、精度）と推論速度の向上を測定する。

実験結果

リサーチクエスチョン

RQ1訓練済みのトランスフォーマーベースのモデルにおいて、MTおよびNLIタスクのための個々のアテンションヘッドはどれだけ本質的なのか？
RQ2層を単一ヘッドに削減しても性能を損なわないか？また、どの層がこの削減に抵抗するか？
RQ3MTモデルにおけるエンコーダ-デコーダと自己注意の成分でヘッド剪定の効果はどうなるか？
RQ4トレーニング中にヘッドの重要度はどのように進化し、いつヘッドが重要または冗長と判断されるのか？
RQ5ヘッドを剪定することによって生じる実際的な効率化（速度/メモリ）はどの程度で、どの条件下でこれらの利得が最も顕著になるか？

主な発見

ほとんどのアテンションヘッドは、推論時に重大な性能低下なしに削除できる。
いくつかの層は単一ヘッドに削減してもほとんど影響がなくなる一方で、エンコーダ-デコーダのアテンションはしばしばより多くのヘッドを必要とする。
重要度の代理を用いた反復剪定により、WMTで約20%、BERTで約40%のヘッドを問題なく剪定できるが、さらに剪定すると性能が著しく低下する。
エンコーダ-デコーダのアテンションは自己注意より剪定に敏感であり、マルチヘッド性への依存度が異なることを示している。
トレーニングのダイナミクスは、ヘッドが訓練の初期段階でより明確に重要になることを示しており、後半に剪定に耐えるモードが現れる。
剪定により顕著な効率向上が得られ、50%のヘッドを削除した場合、バッチサイズが大きいときにはBERTの推論が最大で17.5%速くなる；MHAに割り当てられるパラメータは非自明で、概ね総パラメータの1/3程度である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。