QUICK REVIEW

[論文レビュー] What does BERT Learn from Multiple-Choice Reading Comprehension Datasets?

Chenglei Si, Shuohang Wang|arXiv (Cornell University)|Oct 28, 2019

Topic Modeling参考文献 28被引用数 31

ひとこと要約

本論文は、二つのプローブ手法（読み取り不可能なデータ攻撃と答えが不正なデータでの訓練）を用いて、BERTが複数選択式読解（MCRC）データセットからどのように学習するかを調査している。結果は、BERTが意味的理解や文法的構造ではなく、キーワードマッチングや統計的アーティファクトに大きく依存しており、正しい文脈や語順がなくても高い性能を発揮することを示しており、現在のMCRCベンチマークに根本的な制限があることを明らかにしている。

ABSTRACT

Multiple-Choice Reading Comprehension (MCRC) requires the model to read the passage and question, and select the correct answer among the given options. Recent state-of-the-art models have achieved impressive performance on multiple MCRC datasets. However, such performance may not reflect the model's true ability of language understanding and reasoning. In this work, we adopt two approaches to investigate what BERT learns from MCRC datasets: 1) an un-readable data attack, in which we add keywords to confuse BERT, leading to a significant performance drop; and 2) an un-answerable data training, in which we train BERT on partial or shuffled input. Under un-answerable data training, BERT achieves unexpectedly high performance. Based on our experiments on the 5 key MCRC datasets - RACE, MCTest, MCScript, MCScript2.0, DREAM - we observe that 1) fine-tuned BERT mainly learns how keywords lead to correct prediction, instead of learning semantic understanding and reasoning; and 2) BERT does not need correct syntactic information to solve the task; 3) there exists artifacts in these datasets such that they can be solved even without the full context.

研究の動機と目的

BERTのMCRCデータセットにおける高いパフォーマンスが、真の言語理解を反映しているのか、統計的パターンに依存しているのかを調査すること。
BERTが本文や質問の入力において文法的構造や意味的整合性に依存しているかどうかを評価すること。
BERTが意味的な文脈を持たない状態で質問に答えることができるかどうかを評価し、データセットのアーティファクトを特定すること。
誤った相関関係による欺瞞的要因が、MCRCベンチマークに与える影響の程度を明らかにすること。

提案手法

本文や選択肢にシャッフルされ、解釈不能な文を追加することで、BERTの耐性をテストする読み取り不可能なデータ攻撃の適用。
AddSent2Opt-Shuffle を用い、選択肢内の語をランダムにシャッフルして敵対的入力を生成する。
入力の一部を削除またはシャッフル（例：本文や質問が欠落）したデータでBERTを訓練し、文法的・意味的構造が欠落した状態でのパフォーマンスを評価する。
読み取り不可能な攻撃におけるパフォーマンス低下を測定し、キーワードマッチングへの依存度を推定する。
敵対的シーケンスからの語を段階的に選択肢に追加した際の予測確率の変化を分析する。
パフォーマンス低下と、回答長、シーケンス長の変化、シャッフル度といった要因との間の相関係数を計算し、主な要因を特定する。

実験結果

リサーチクエスチョン

RQ1BERTはMCRCタスクにおいて、意味的理解よりもキーワードマッチングにどれほど依存しているのか？
RQ2BERTは本文や選択肢の読み取り不可能な入力、もしくは文法的に誤った入力に対してどれほど耐性があるのか？
RQ3意味的整合性の欠片もない、答えが不正な、もしくはシャッフルされた入力で訓練された場合、BERTはMCRCタスクで高いパフォーマンスを達成できるのか？
RQ4データセットのアーティファクトや統計的手がかりは、BERTが既存のMCRCベンチマークで成功を収める上で、どのような役割を果たしているのか？
RQ5BERTのMCRCデータセットにおけるパフォーマンスは、正しい文法的構造や語順に依存しているのか？

主な発見

読み取り不可能な文が本文や選択肢に追加されるとBERTのパフォーマンスが著しく低下し、キーワードマッチングへの強い依存が示された。
答えが不正なデータでの訓練では、キーワードが残っている限り高い正答率を達成しており、BERTが意味の学習ではなくデータセットのアーティファクトを活用していることが示された。
シャッフルされた入力でもBERTは良好なパフォーマンスを示しており、正しい語順や文法的構造がMCRCタスクの解決に必要でないことが裏付けられた。
読み取り不可能な攻撃におけるパフォーマンス低下は、シーケンス長の変化と強く相関していなかったため、語順の破壊が主な要因であることが示唆された。
敵対的シーケンスからの語を選択肢に段階的に追加すると、予測確率に顕著な変化が生じ、'number' や 'counter' といったキーワードがモデル出力に強い影響を与えることが分かった。
シャッフル度とモデルパフォーマンスの間に強い負の相関が認められ、より高い破壊度がパフォーマンス低下を引き起こすことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。