QUICK REVIEW

[論文レビュー] HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Zhilin Yang, Peng Qi|arXiv (Cornell University)|Sep 25, 2018

Topic Modeling参考文献 16被引用数 111

ひとこと要約

HotpotQA は KB 制約なしでマルチホップ推論を要する113k件の Wikipedia ベースのQAペアを導入し、説明可能性のための文レベルの根拠を提供し、比較問題を新規追加する。

ABSTRACT

Existing question answering (QA) datasets fail to train QA systems to perform complex reasoning and provide explanations for answers. We introduce HotpotQA, a new dataset with 113k Wikipedia-based question-answer pairs with four key features: (1) the questions require finding and reasoning over multiple supporting documents to answer; (2) the questions are diverse and not constrained to any pre-existing knowledge bases or knowledge schemas; (3) we provide sentence-level supporting facts required for reasoning, allowing QA systems to reason with strong supervision and explain the predictions; (4) we offer a new type of factoid comparison questions to test QA systems' ability to extract relevant facts and perform necessary comparison. We show that HotpotQA is challenging for the latest QA systems, and the supporting facts enable models to improve performance and make explainable predictions.

研究の動機と目的

自然言語で複数の文書に跨るマルチホップ推論を要するデータセットの必要性を動機づける。
固定KBスキーマを持たない大規模なWikipediaベースのQAデータセットを提供し、質問と回答の多様性を高める。
予測を説明するための文レベルの根拠を収集して強い監督を提供する。
算術やエンティティ間の推論をテストする比較問題を導入する。
根拠を通じた説明可能性とQA精度の両方を評価するベンチマークを提供する。

提案手法

最初の段落のハイパーリンクからWikipediaのハイパーリンクグラフを構築し、マルチホップ推論の架橋エンティティを特定する。
グラフのエッジと選定した架橋エンティティを用いて候補段落ペアを生成し、意味のあるマルチホップ質問を作成する。
回答を正当化する根拠文を収集し、強い監督と説明を可能にする。
エンティティ間の推論を含む事実的・数値的推論をテストする新しい質問タイプとして比較質問を作成する。
回答範囲と根拠を同時に予測する多タスク目的を持つエンドツーエンドのQAモデルを開発し、Yes/No質問にはYes/No/Spanの決定ブランチを含める。
ダistractorとfull-wiki取得設定の下で回答精度と説明可能性指標の両方を用いてQA性能を評価する。

実験結果

リサーチクエスチョン

RQ1実際にマルチホップで、複数の文書を横断して推論する必要がある真に多段階の質問に対して、既存のQAモデルはどの程度の性能を示すか？
RQ2文レベルの根拠を提供することで、QA精度とモデル予測の説明可能性が向上するか？
RQ3retrieval の難易度（distractor vs full Wiki）がマルチホップQAの性能に与える影響は？
RQ4比較問題とYes/No 問題はQAの難易度とモデルの能力にどのような影響を与えるか？
RQ5HotpotQA に必要なマルチホップ推論のタイプの分布と性質は？

主な発見

Setting	Split	EM	F1	Sup Fact EM	Sup Fact F1	Joint EM	Joint F1
distractor	dev	44.44	58.28	21.95	66.66	11.56	40.86
distractor	test	45.46	58.99	22.24	66.62	12.04	41.37
full wiki	dev	24.68	34.36	0	5.28	0	2.54
full wiki	test	25.23	34.40	0	5.07	0	2.63

大規模データセット（112,779 件）で、複数の文書に跨るマルチホップ推論を要求する。
異なるノイズレベルでの取得と推論をテストする2つのベンチマーク設定（distractorとfull wiki）。
根拠文を用いた強い監督はQA性能を改善し、説明性を可能にする（根拠文予測）。
ベースラインモデルは人間の性能を大幅に下回り、特にfull-wiki取得で取得が大きなボトルネックであることを示す。
文字レベルの成分と自己注意機構は性能に寄与し、根拠文と訓練データの多様性の価値を示す。
ほとんどの質問は架橋エンティティベースの連鎖推論（タイプI）または比較ベースの推論を要し、多くの問題で複数の根拠が必要。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。