Skip to main content
QUICK REVIEW

[論文レビュー] Multi-head or Single-head? An Empirical Comparison for Transformer Training

Liyuan Liu, Jialu Liu|arXiv (Cornell University)|Jun 17, 2021
Natural Language Processing Techniques参考文献 29被引用数 23
ひとこと要約

この論文は、多ヘッドアテンションの優位性が複数の位置に注目できるからではなく、訓練の安定性に起因するという従来の考え方に挑戦し、適応的初期化を用いて浅い多ヘッド変換器をより深い単一ヘッドバージョンに置き換えることで、ハイパーパramータチューニングなしで一貫した性能向上を達成している。訓練が安定している場合、性能向上の主因はアーキテクチャの深さであり、多ヘッド構造ではないことが示された。

ABSTRACT

Multi-head attention plays a crucial role in the recent success of Transformer models, which leads to consistent performance improvements over conventional attention in various applications. The popular belief is that this effectiveness stems from the ability of jointly attending multiple positions. In this paper, we first demonstrate that jointly attending multiple positions is not a unique feature of multi-head attention, as multi-layer single-head attention also attends multiple positions and is more effective. Then, we suggest the main advantage of the multi-head attention is the training stability, since it has less number of layers than the single-head attention, when attending the same number of positions. For example, 24-layer 16-head Transformer (BERT-large) and 384-layer single-head Transformer has the same total attention head number and roughly the same model size, while the multi-head one is significantly shallower. Meanwhile, we show that, with recent advances in deep learning, we can successfully stabilize the training of the 384-layer Transformer. As the training difficulty is no longer a bottleneck, substantially deeper single-head Transformer achieves consistent performance improvements without tuning hyper-parameters.

研究の動機と目的

  • 多ヘッドアテンションの成功が、複数の位置に注目できるからであるのか、それとも訓練の安定性に起因するのかを調査すること。
  • 同じモデルサイズと計算複雑性のもとで、浅い多ヘッド変換器とより深い単一ヘッドバージョンの性能を比較すること。
  • 最近の訓練安定化技術が、より深い単一ヘッド変換器が標準的な多ヘッドアーキテクチャを上回ることを可能にするかを評価すること。
  • より深いモデルによる性能向上が、アーキテクチャの深さに起因するのか、それとも多ヘッド機構自体に起因するのかを特定すること。
  • 同じモデルサイズのもとで、より深い単一ヘッドと浅い多ヘッド変換器の推論効率と訓練収束速度を比較すること。

提案手法

  • 標準的な多ヘッド変換器(例:BERT-base, BERT-large)を、同じ合計のアテンションヘッド数とモデルサイズを保ったまま、より深い単一ヘッドバージョンに再構築すること。
  • 極めて深い単一ヘッド変換器(例:384層モデル)の訓練を安定化させるために、適応的モデル初期化(Admin)を用いること。
  • 深さとアーキテクチャの違いを隔離するために、同じハイパーパramータのもとで浅い多ヘッドモデルと深い単一ヘッドモデルを訓練すること。
  • 機械翻訳およびBERT事前学習タスクにおける性能を測定し、一般化性能と頑健性を比較すること。
  • 同じハードウェア上で推論速度と訓練効率(GPU時間)を評価し、実用的導入特性を比較すること。
  • 収束曲線とさまざまなヘッド数における性能向上を可視化し、アーキテクチャの深さの影響を分析すること。

実験結果

リサーチクエスチョン

  • RQ1複数の位置に注目することが多ヘッドアテンションに独自の利点をもたらすのか、それとも非常に深い単一ヘッドアテンションでも同様の効果が得られるのか?
  • RQ2多ヘッドアテンションの主な利点は、複数の位置に注目できる能力にあるのか、それとも訓練の安定性に起因するのか?
  • RQ3現代の初期化技術を用いることで、極めて深い単一ヘッド変換器を効果的に訓練できるのか。また、浅い多ヘッドバージョンを上回る性能を発揮するのか?
  • RQ4同じモデルサイズのもとで、より深い単一ヘッドと浅い多ヘッド変換器の性能、推論速度、訓練効率はどのように比較されるのか?
  • RQ5深さによる性能向上はヘッド数に依存するのか。また、その改善はさまざまなタスクで一貫しているのか?

主な発見

  • 384層の深い単一ヘッド変換器は、ハイパーパramータチューニングなしで、複数のNLPタスクにおいて24層の浅い多ヘッドバージョン(例:BERT-large)を上回る性能を発揮した。
  • 性能向上の主な要因は多ヘッド機構そのものではなく、訓練が安定している場合のモデルの深さに起因する。
  • 適応的初期化(Admin)により、384層の単一ヘッド変換器の訓練が安定化し、標準的な初期化では発散するモデルでも安定して学習可能となった。
  • 同じモデルサイズと計算複雑性のもとで、深い単一ヘッド変換器は浅い多ヘッドバージョンよりも速く収束し、より高い性能を達成した。
  • 推論速度は、バッチサイズやシーケンス長に応じたわずかな利点を除き、深い単一ヘッドと浅い多ヘッド変換器でほぼ同等であった。
  • 性能向上はヘッド数に応じて増加し、浅い多ヘッドと深い単一ヘッドモデルのアーキテクチャ的差異が、性能向上の主要因であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。