[論文レビュー] Align, Mask and Select: A Simple Method for Incorporating Commonsense Knowledge into Language Representation Models
本論文は、ConceptNetからの常識知識をBERTに注入するAMSベースの事前学習を導入し、MCQA形式の事前学習データを作成して、一般NLP性能を損なうことなくCSQAやWSCなどの常識ベンチマークを改善する。
The state-of-the-art pre-trained language representation models, such as Bidirectional Encoder Representations from Transformers (BERT), rarely incorporate commonsense knowledge or other knowledge explicitly. We propose a pre-training approach for incorporating commonsense knowledge into language representation models. We construct a commonsense-related multi-choice question answering dataset for pre-training a neural language representation model. The dataset is created automatically by our proposed "align, mask, and select" (AMS) method. We also investigate different pre-training tasks. Experimental results demonstrate that pre-training models using the proposed approach followed by fine-tuning achieve significant improvements over previous state-of-the-art models on two commonsense-related benchmarks, including CommonsenseQA and Winograd Schema Challenge. We also observe that fine-tuned models after the proposed pre-training approach maintain comparable performance on other NLP tasks, such as sentence classification and natural language inference tasks, compared to the original BERT models. These results verify that the proposed approach, while significantly improving commonsense-related NLP tasks, does not degrade the general language representation capabilities.
研究の動機と目的
- 一般的な言語理解を損なうことなく、事前学習モデルに常識知識を組み込む動機づけ。
- AMSを提案し、常識知識グラフと整合する大規模自然言語QAデータセットを自動構築する。
- AMSデータでBERT系を事前学習し、常識ベンチマークとGLUEタスクで評価する。
- データ作成と事前学習タスクの効果を理解するためのアブレーションを示す。
提案手法
- ConceptNetの三つ組を英語Wikipediaの文にフィルタリングして整合させる。
- 文中の一つの概念をマスクしてMCQA問題を形成し、マスクされた概念を正解として扱う。
- 同じ関係や概念を共有する関連する三つ組を見つけて誤解を招く選択肢を4つ選ぶ。
- AMSデータセットを用いてMCQAタスクでBERT_CSモデルをソフトマックスで訓練する。
- ダウンストリームタスクで微調整を行い、ベースラインBERTや最先端結果と比較する。
- MCQAとMLM事前学習の比較や異なるデータ作成戦略のアブレーションを提供する。
実験結果
リサーチクエスチョン
- RQ1AMSベースの事前学習はCSQAとWSCで常識推論を改善できるか?
- RQ2AMSデータの組み込みはGLUE風の一般NLPタスクの性能を低下させるか、それとも保持するか?
- RQ3どの事前学習タスクとデータ作成戦略が言語モデルの常識推論に最も効果的か?
主な発見
| モデル | CSQA テスト精度(%) |
|---|---|
| BERT base | 53.0 |
| BERT large | 56.7 |
| CoS-E (Rajani et al., 2019) | 58.2 |
| BERT_CS base | 56.2 |
| BERT_CS large | 62.2 |
- BERT_CS largeはCSQAテストで62.2%を達成し、ベースラインのBERT large(56.7%)およびCoS-E SOTA(58.2%)を上回る。
- BERT_CSモデルは元のBERTモデルと同等のGLUE性能を維持し、一般的な言語表現能力の低下がないことを示す。
- AMSを用いたMCQAベースの事前学習は、CSQAのアブレーションでMLMベースやランダムなディストラクター法より優れている。
- 事前学習の自然言語の入力を用いたアブレーションは、CSQAのために三つ組ベースの入力のみより好ましいことを示す。
- WSCでは、BERT_CS large + MCQAが複数の評価指標で優れた結果を示し、MCQAフォーマットが常識的タスクに有利であることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。