Skip to main content
QUICK REVIEW

[論文レビュー] ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning

Weihao Yu, Zihang Jiang|arXiv (Cornell University)|Feb 11, 2020
Topic Modeling参考文献 40被引用数 127
ひとこと要約

ReClorは、論理推論に焦点を当てた大規模な4択読解データセットを導入し、テストデータをバイアスのあるEASYと非バイアスのHARDのセットに分割し、最先端モデルはEASYでは卓越するがHARDでは苦戦することを示し、転移学習(RACE事前学習)によって顕著な向上を得られるもののHARDでは人間の性能を下回る。

ABSTRACT

Recent powerful pre-trained language models have achieved remarkable performance on most of the popular datasets for reading comprehension. It is time to introduce more challenging datasets to push the development of this field towards more comprehensive reasoning of text. In this paper, we introduce a new Reading Comprehension dataset requiring logical reasoning (ReClor) extracted from standardized graduate admission examinations. As earlier studies suggest, human-annotated datasets usually contain biases, which are often exploited by models to achieve high accuracy without truly understanding the text. In order to comprehensively evaluate the logical reasoning ability of models on ReClor, we propose to identify biased data points and separate them into EASY set while the rest as HARD set. Empirical results show that state-of-the-art models have an outstanding ability to capture biases contained in the dataset with high accuracy on EASY set. However, they struggle on HARD set with poor performance near that of random guess, indicating more research is needed to essentially enhance the logical reasoning ability of current models.

研究の動機と目的

  • GMAT/LSATの試験から出典される論理的推論を必要とする読解データセットReClorを紹介する。
  • 推論能力を総合的に評価するため、 biased (EASY) と non-biased (HARD) データを分離してデータの偏りを特定する。
  • ReClor上で最先端の事前学習済みモデルを評価し、データセットの偏りへの依存と真の推論を評価する。
  • ReClorで訓練する前にRACEでファインチューニングすることで転移学習を検討し、推論タスクの向上を評価する。

提案手法

  • GMAT/LSATソースから6,138の論理推論問題を収集し、選択肢をシャッフルして4択MC形式に変換する。
  • 強力なベースラインに対して回答選択肢のみを入力し、複数のシードと予測の交差を用いてEASYセットを定義するなど、偏ったデータを特定する。
  • EASYとHARDサブセットでのモデル性能を比較し、推論とバイアスの悪用を測る。
  • 様々な入力設定(C/Q/A)で、RACE事前学習の有無を含めて、GPT、GPT-2、BERT、XLNet、RoBERTaなどのベースラインモデルを訓練・評価する。
  • 質問タイプ分布(17種類)を分析し、HARDとEASY間の性能を検討して推論の課題を理解する。
  • ReClorの前にRACEでファインチューニングして転移学習を実証し、特にHARDでの改善を報告する。

実験結果

リサーチクエスチョン

  • RQ1現在のNLPモデルは、標準化された試験から構成されたデータセットで真の論理的推論を行えるか?
  • RQ2最先端モデルは主にデータセットの偏りを利用しているのか、EASY/HARDの分割はこの挙動を明らかにできるのか?
  • RQ3関連する試験形式データセット(RACE)での事前学習またはファインチューニングがReClorの推論性能、特にHARDケースの改善につながるか?

主な発見

  • ReClorは、類似のMRCデータセットと同程度の規模で、語彙が大きく、文脈パッセージは比較的簡潔である。
  • モデルはEASYセット(バイアス駆動の質問)で良好に動作するが、HARDセットでは苦戦し、HARDではほぼランダムの機会に近づく。
  • トランスフォーマーベースのモデルはEASYで高い精度(約60%以上)を達成する一方、HARDでは約30-40%に止まり、実際の論理推論には限界があることを示す。
  • ReClorの前にRACEでファインチューニングすることで顕著な向上を得られ、特にHARDで顕著だが、大学院生/humanの性能には及ばない。
  • 人間はEASYとHARDの両方で一貫した性能を維持し、機械のバイアス利用と真の推論との間にギャップがあることを浮き彫りにする。
  • 分析は、語彙的手掛かりや選択肢の長さの違いなどのバイアス信号を示し、特定の問題タイプ(例: 強化/弱化、役割など)はHARDで特に難しいことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。