[論文レビュー] ConvBERT: Improving BERT with Span-based Dynamic Convolution
ConvBERTは冗長なアテンションヘッドを置換するためにスパンベースの動的畳込みを導入し、ボトルネックとグループ化フィードフォワードを備えた混合アテンションブロックを形成し、BERTよりも低い事前学習コストでより良いGLUE/SQuADの性能を実現します。
Pre-trained language models like BERT and its variants have recently achieved impressive performance in various natural language understanding tasks. However, BERT heavily relies on the global self-attention block and thus suffers large memory footprint and computation cost. Although all its attention heads query on the whole input sequence for generating the attention map from a global perspective, we observe some heads only need to learn local dependencies, which means the existence of computation redundancy. We therefore propose a novel span-based dynamic convolution to replace these self-attention heads to directly model local dependencies. The novel convolution heads, together with the rest self-attention heads, form a new mixed attention block that is more efficient at both global and local context learning. We equip BERT with this mixed attention design and build a ConvBERT model. Experiments have shown that ConvBERT significantly outperforms BERT and its variants in various downstream tasks, with lower training cost and fewer model parameters. Remarkably, ConvBERTbase model achieves 86.4 GLUE score, 0.7 higher than ELECTRAbase, while using less than 1/4 training cost. Code and pre-trained models will be released.
研究の動機と目的
- 局所的な依存関係を活用して、BERTの自己注意ヘッドの動機づけと冗長性の削減を図る。
- ローカルコンテキストを効率的に捉えるためにスパンベースの動的畳み込みを導入する。
- ConvBERTを混合アテンションブロック、ボトルネックアテンション、グループ化フィードフォワードで構築し、効率と性能を向上させる。
- GLUEとSQuADでConvBERTを評価し、訓練コストを抑えつつ精度の向上を示す。
提案手法
- Qおよび局所K_sに条件付けられた局所入力スパンからカーネルを生成するスパンベースの動的畳込みを提案します。
- 同じQを共有しつつ、異なるキー/ベースを用いるSelf-AttentionとSpan-based Dynamic Convolutionを混合アテンションブロックに組み合わせます。
- 自己アテンション経路とヘッドの次元を削減するボトルネック構造を導入します。
- パラメータと計算を削減するために、フィードフォワードモジュールでグループ化された線形演算子を適用します。
- ELECTRAの置換トークン検出に類似した事前学習設定でConvBERTを訓練し、GLUEとSQuADで評価します。
実験結果
リサーチクエスチョン
- RQ1スパンベースの動的畳込みは標準的な自己注意よりも局所的な依存関係をより効率的に捉えることができるのか?
- RQ2スパンベースの動的畳込みを自己注意と統合することで冗長性を減らし、下流タスクの性能を向上させるのか?
- RQ3同等または低い訓練コストの下で、ConvBERTを使用した場合のGLUEおよびSQuADベンチマークの利得は、BERTとELECTRAと比較してどの程度か?
主な発見
| モデル | 訓練FLOPs | パラメータ | MNLI | QNLI | QQP | RTE | SST-2 | MRPC | CoLA | STS-B | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Conv BERTbase | 1.9e19 (15x) | 106M | 85.3 | 92.4 | 89.6 | 74.7 | 95.0 | 88.2 | 66.0 | 88.2 | 84.9 |
| Conv BERTbase (train longer) | 7.6e19 (59x) | 106M | 88.3 | 93.2 | 90.0 | 77.9 | 95.7 | 88.3 | 67.8 | 89.7 | 86.4 |
- ConvBERTはGLUEで同程度の規模のBERTおよびELECTRAのベースラインを、より低い事前学習コストで上回る。
- ベースサイズのConvBERTは86.4のGLUEスコアを達成し、ELECTRAbaseより0.7高く、訓練コストは1/4未満である。
- スパンベースの動的畳込みは、素の動的畳込みおよび並列従来の畳込みに比べて顕著な利得を生む。
- ボトルネックアテンションとグループ化フィードフォワードは、パラメータを削減しつつ性能を維持または向上させる。
- ConvBERTの小型/ベースモデルは、ベースラインモデルに比べてFLOPs/パラメータが有利で、タスク性能を維持または向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。