Skip to main content
QUICK REVIEW

[論文レビュー] DeBERTa: Decoding-enhanced BERT with Disentangled Attention

Pengcheng He, Xiaodong Liu|arXiv (Cornell University)|Jun 5, 2020
Topic Modeling参考文献 61被引用数 422
ひとこと要約

DeBERTa は、内容ベクトルと位置ベクトルを分離した分離型注意機構と強化マスクデコーダー、そしてスケール不変な微調整を導入することで、以前の PLM を NLU/NLG タスクで超える。1.5B パラメータのモデルで SuperGLUE において人間の性能を上回る。

ABSTRACT

Recent progress in pre-trained neural language models has significantly improved the performance of many natural language processing (NLP) tasks. In this paper we propose a new model architecture DeBERTa (Decoding-enhanced BERT with disentangled attention) that improves the BERT and RoBERTa models using two novel techniques. The first is the disentangled attention mechanism, where each word is represented using two vectors that encode its content and position, respectively, and the attention weights among words are computed using disentangled matrices on their contents and relative positions, respectively. Second, an enhanced mask decoder is used to incorporate absolute positions in the decoding layer to predict the masked tokens in model pre-training. In addition, a new virtual adversarial training method is used for fine-tuning to improve models' generalization. We show that these techniques significantly improve the efficiency of model pre-training and the performance of both natural language understanding (NLU) and natural langauge generation (NLG) downstream tasks. Compared to RoBERTa-Large, a DeBERTa model trained on half of the training data performs consistently better on a wide range of NLP tasks, achieving improvements on MNLI by +0.9% (90.2% vs. 91.1%), on SQuAD v2.0 by +2.3% (88.4% vs. 90.7%) and RACE by +3.6% (83.2% vs. 86.8%). Notably, we scale up DeBERTa by training a larger version that consists of 48 Transform layers with 1.5 billion parameters. The significant performance boost makes the single DeBERTa model surpass the human performance on the SuperGLUE benchmark (Wang et al., 2019a) for the first time in terms of macro-average score (89.9 versus 89.8), and the ensemble DeBERTa model sits atop the SuperGLUE leaderboard as of January 6, 2021, out performing the human baseline by a decent margin (90.3 versus 89.8).

研究の動機と目的

  • BERT/RoBERTa のベースラインより事前学習効率と下流NLP性能を向上させる。
  • 内容と位置情報を分離する分離型注意機構を導入する。
  • デコーディングにも絶対位置情報を組み込み(Enhanced Mask Decoder) MLM タスクを支援する。
  • 正規化された埋め込みを摂動させることによりロバストな微調整を実現する SiFT により、下流タスクの一般化を改善する。

提案手法

  • 各トークンを内容ベクトルと位置ベクトルの二つで表す。
  • 注意機構を four components(内容-to-内容、内容-to-位置、位置-to-内容、通常は省略される)で計算する。
  • 効率のために固定の 2k 範囲を持つ相対位置埋め込みを使用する。
  • Enhanced Mask Decoder を通じて Transformer 層の後に絶対位置情報を MLM の事前学習に組み込む。
  • 正規化埋め込みを摂動させることで堅牢な下流微調整を実現する Scale-invariant Fine-Tuning(SiFT)。
  • 大規模(1.5B)とベースの DeBERTa モデルを約 78–160G のテキストデータで事前学習し、GLUE/SuperGLUE/NLG タスクで評価する。

実験結果

リサーチクエスチョン

  • RQ1分離型注意が標準自己注意と比べて NLP タスクのパフォーマンスを改善するか。
  • RQ2Enhanced Mask Decoder を介して絶対位置を MLM の事前学習に組み込む効果はどれほどか。
  • RQ3SiFT は大規模 DeBERTa モデルの微調整の堅牢性と一般化を改善するか。
  • RQ4DeBERTa は RoBERTa、XLNet、ELECTRA などの同規模モデルと比較してモデルサイズが大きくなるとどの程度性能が伸びるか。
  • RQ5SuperGLUE のような難易度の高いベンチマークで DeBERTa は人間の基準を上回れるか。

主な発見

  • DeBERTa 大規模はほとんどの GLUE タスクで RoBERTa 大規模および XLNet 大規模を上回り、学習データが同程度でも平均スコアを高く達成した。
  • DeBERTa 大規模は RoBERTa-Large と比較して MNLI および SQuAD で利得を示す(例: MNLI +0.9%、SQuAD v2.0 +2.3%、RACE +3.6%)。
  • 1.5B の DeBERTa モデルは SuperGLUE のマクロ平均で 89.9 を達成し、人間ベースライン 89.8 を超えた。
  • DeBERTa ベースモデル(12L、768 隠れ次元)は MNLI、SQuAD、RACE の ablation でも RoBERTa および XLNet を一貫して上回る。
  • アブレーションでは EMD を削除するか、C2P または P2C のいずれかを排除すると、各ベンチマークで性能が低下し、各コンポーネントの寄与が確認された。
  • 1.5B パラメータへのスケールアップは NLU と NLG の両タスクを改善し、類似の大規模モデル(例: T5 11B)よりエネルギー効率の高い代替を提供する。
  • SuperGLUE では DeBERTa 1.5B と SiFT が競合的なスコアを達成し、アンサンブルが 2021 時点で上位ランキングを占めた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。