QUICK REVIEW

[論文レビュー] Multi-hop Question Answering via Reasoning Chains

Jifan Chen, Shih-Ting Lin|arXiv (Cornell University)|Oct 7, 2019

Topic Modeling参考文献 43被引用数 66

ひとこと要約

この論文は、テキスト上の離散的推論チェーンを抽出し、それを用いて最終回答を生成するBERTベースのQAモジュールを用いる2段階モデルを提案し、WikiHopで最先端の結果を達成し、Gold supporting factsなしでHotpotQAでも高い性能を発揮する。

ABSTRACT

Multi-hop question answering requires models to gather information from different parts of a text to answer a question. Most current approaches learn to address this task in an end-to-end way with neural networks, without maintaining an explicit representation of the reasoning process. We propose a method to extract a discrete reasoning chain over the text, which consists of a series of sentences leading to the answer. We then feed the extracted chains to a BERT-based QA model to do final answer prediction. Critically, we do not rely on gold annotated chains or "supporting facts:" at training time, we derive pseudogold reasoning chains using heuristics based on named entity recognition and coreference resolution. Nor do we rely on these annotations at test time, as our model learns to extract chains from raw text alone. We test our approach on two recently proposed large multi-hop question answering datasets: WikiHop and HotpotQA, and achieve state-of-art performance on WikiHop and strong performance on HotpotQA. Our analysis shows the properties of chains that are crucial for high performance: in particular, modeling extraction sequentially is important, as is dealing with each candidate sentence in a context-aware way. Furthermore, human evaluation shows that our extracted chains allow humans to give answers with high confidence, indicating that these are a strong intermediate abstraction for this task.

研究の動機と目的

複数のテキスト部分から情報を得る必要がある回答を対象としたマルチホップQAを動機づける。
答えへ至る文の列を特定する離散的で訓練可能な推論チェーン抽 extractor を導入する。
抽出されたチェーンを利用して最終回答を予測する2段階のQAモジュール（BERTベース）を活用する。
訓練時に金標準のサポーティングチェーンを必要とせず、疑似的なグラウンドトゥルースチェーンをヒューリスティックに用いて注釈なしでテストできるようにする。
WikiHopとHotpotQAでこのアプローチを実証し、性能に重要なチェーンの特性を分析する。

提案手法

推論チェーンを、質問と関連する事実を結ぶ文の連続として定義する。
トレーニング時にはNERベースのエッジと段落内リンクを用いた補助的なグラフを構築し、pseudo-ground-truthチェーンを生成する（oracle）。
チェーン抽出器を訓練し、BERT（BERT-ParaまたはBERT-Sent変種）で文を符号化し、ポインタネットワークを用いて文インデックスの系列を出力する。
oracleチェーントークンの負の対数尤度で訓練し、テスト時にはビーム探索で複数の候補チェーンを生成する。
上位チェーンをBERTベースの回答予測器（HotpotQAではRoBERTa）に入力し、最終回答を生成する。データセット固有の出力ヘッド（複数選択肢またはスパン抽出）を用いる。
逐次的チェーン抽出と無秩序な文選択を比較し、順序の利点を示す。

実験結果

リサーチクエスチョン

RQ1金標準のチェーンを必要とせずに、マルチホップQAの推論チェーンを自動的に導出できるか？
RQ2逐次チェーン抽出モデルは、無秩序またはチェーン非利用の手法と比べて最終QA性能を改善するか？
RQ3抽出されたチェーンは最終回答予測をどれだけ支え、注釈付きのサポーティングファクトとどの程度比較できるか？
RQ4異なるチェーン監督戦略とビームサイズがQA精度に与える影響はどれくらいか？
RQ5抽出されたチェーンは人間の理解にとって信頼できる有用な中間表現となるか？

主な発見

チェーン抽出器は逐次デコードにより、無秩序な文選択よりもWikiHopおよびHotpotQAのQA性能を向上させる。
文エンコーディングの文脈をより多く使用すると（BERT-Para vs BERT-Sent）、いくつかの設定で約5%のQA性能向上をもたらし、クロス文関係が重要であることを示す。
Top-5チェーンのアンサンブルは、チェーンの不確実性を保つことで下流のQAリコールとF1を大幅に改善する。
このアプローチはGold supporting factsをテスト時に依存せず、WikiHopで最先端の結果とHotpotQAで強い性能を達成する。
人間の評価では、抽出されたチェーンが注釈付きサポーティングファクトを使用する場合と同等の自信を持って回答できるようにすることが示され、チェーンを堅牢な中間表現として支持する。
順序付きチェーン抽出は、特により強いマルチホップ推論を要求するデータセットで、無秩序な抽出よりも優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。