Skip to main content
QUICK REVIEW

[論文レビュー] BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions

Christopher Clark, Kenton Lee|arXiv (Cornell University)|May 24, 2019
Topic Modeling参考文献 39被引用数 209
ひとこと要約

本論文は BoolQ を紹介する。自然発生的なはい/いいえの質問と、それに対応する Wikipedia の passages からなるデータセットであり、これらの質問には相当な推論を要すること、転移学習がベースラインより性能を改善することを示している。

ABSTRACT

In this paper we study yes/no questions that are naturally occurring --- meaning that they are generated in unprompted and unconstrained settings. We build a reading comprehension dataset, BoolQ, of such questions, and show that they are unexpectedly challenging. They often query for complex, non-factoid information, and require difficult entailment-like inference to solve. We also explore the effectiveness of a range of transfer learning baselines. We find that transferring from entailment data is more effective than transferring from paraphrase or extractive QA data, and that it, surprisingly, continues to be very beneficial even when starting from massive pre-trained language models such as BERT. Our best method trains BERT on MultiNLI and then re-trains it on our train set. It achieves 80.4% accuracy compared to 90% accuracy of human annotators (and 62% majority-baseline), leaving a significant gap for future work.

研究の動機と目的

  • 自然発生的なはい/いいえの質問をテストする推論リーディング理解能力を測るデータセットを動機づけ、構築する。
  • これらの質問を答えるのに必要な推論の種類を特徴付ける。
  • はい/いいえ QA の転移学習戦略を評価し、有効な事前学習源を特定する。

提案手法

  • BoolQ を Natural Questions データ収集を拡張して、回答を示す passages を伴うはい/いいえ質問として組み立てる。
  • passage の抜粋を用いて質問の回答可能性と はい/いいえラベルをアノテーションする。
  • 含意データ、言い換え、抽出型 QA データ源からの転移学習(無監督事前学習を含む)を実験する。
  • BoolQ でのモデルをファインチューニングする(RNN、BERT、GPT など)し、単一ステップ対多段階事前学習を比較する。
  • 質問/ passage の信号を分析し、MultiNLI のようなデータでの事前学習が BoolQ の性能にどのように影響するかを検討する。

実験結果

リサーチクエスチョン

  • RQ1自然に発生するはい/いいえの質問を、非自明な推論を要する短い passages から信頼性高く答えられるか。
  • RQ2どの外部データソース(含意、QA、言い換え、無監督事前学習)が BoolQ へ最も効果的に転移するか。
  • RQ3BoolQ のみで学習する場合と転移学習の効果を比較し、複数段階の事前学習が性能に与える影響は。
  • RQ4BoolQ にとって最も重要な推論タイプは何か(言い換え、事実推論、暗黙/欠落表現など)。
  • RQ5BoolQ での機械の性能と人間の精度のギャップはどれくらいか。

主な発見

  • BoolQ は挑戦的である。最良モデルの精度は 80.43% で、 人間の精度 90% および多数派基線 62.31% に及ばない。
  • 含意データ(MultiNLI、SNLI など)からの転移は、言い換えや抽出型 QA データより一般に強い利益をもたらす。
  • BERT での無監督事前学習と二段階制度(MultiNLI で事前学習し、次に BoolQ でファインチューニング)により大きな利益が得られ、MultiNLI が BERT に直交的な信号を提供する。
  • MultiNLI からの単一ステップ転移は多くの他ソースより優れており、MultiNLI の pre-training 後に BoolQ フィン tuning を組み合わせると最高の結果を得られる。
  • 質問のみのモデルは、回答予測に重要な情報をパッセージが担っていることを示し、パッセージの情報が必須である。
  • BoolQ の形式に似たタスク(例:文のペア)からの転移は常に含意ベースの転移より優れているとは限らず、含意データは依然として有益である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。