Skip to main content
QUICK REVIEW

[論文レビュー] Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering

Shuohang Wang, Mo Yu|arXiv (Cornell University)|Nov 14, 2017
Topic Modeling参考文献 25被引用数 95
ひとこと要約

この論文は、複数の passage を用いてオープンドメインQAを改善する、エビデンス集約ベースの2つの回答再ランキング手法(強さベースとカバレッジベース)を提案し、Quasar-T、SearchQA、TriviaQAのオープンドメーデータセットで最先端の結果と顕著なF1の改善を達成する。

ABSTRACT

A popular recent approach to answering open-domain questions is to first search for question-related passages and then apply reading comprehension models to extract answers. Existing methods usually extract answers from single passages independently. But some questions require a combination of evidence from across different sources to answer correctly. In this paper, we propose two models which make use of multiple passages to generate their answers. Both use an answer-reranking approach which reorders the answer candidates generated by an existing state-of-the-art QA model. We propose two methods, namely, strength-based re-ranking and coverage-based re-ranking, to make use of the aggregated evidence from different passages to better determine the answer. Our models have achieved state-of-the-art results on three public open-domain QA datasets: Quasar-T, SearchQA and the open-domain version of TriviaQA, with about 8 percentage points of improvement over the former two datasets.

研究の動機と目的

  • 複数の retrieved passage からのエビデンスを用いるオープンドメQAを動機づける。
  • より良い回答選択のために passage 全体を跨ぐエビデンスを集約する2つの再ランキング戦略を開発する。
  • 3つの公開オープンドメQAデータセットで最先端の性能を示す。
  • 2つの再ランキング手法の相対的な強みを分析し、それぞれが優れる状況について洞察を提供する。

提案手法

  • IRモデルを用いて質問に対するトップ-N passageを取得し、RCモデルを用いてこれらの passage から候補回答スパンを生成する。
  • strength-based re-ranker を提案し、各候補回答のために passage を跨いだエビデンスをカウントする(出現回数または合計 RC 確率)。
  • coverage-based re-ranker を提案し、回答を含む passage を連結して疑似 passage を作成し、質問に対してマッチ-LSTM ベースの含意モデルを適用する。
  • 追加の学習を行わずに、softmax 正規化された重み付きスコアを組み合わせて最終回答を選択する。
  • coverage-based re-ranker を Adam で訓練し、連結されたエビデンス文脈上でニューラル含意風アーキテクチャを用いる。

実験結果

リサーチクエスチョン

  • RQ1複数の passage からエビデンスを集約することは、単一 passage の RC モデルを超えたオープンドメQAの改善につながるか。
  • RQ2強さベースとカバレッジベースのエビデンス集約戦略は、回答の再ランキングに相補的な利点を提供するか。
  • RQ3集約ベースの再ランキングは、オープンドメQAデータセットでどれほど最先端の結果を達成できるか。
  • RQ4この設定におけるトップ-K 候補リストと再ランキング性能の実用的なトレードオフは何か。

主な発見

  • フル再ランキング手法(強さベースとカバレッジベースの組み合わせ)は、Quasar-T、SearchQA、TriviaQAのオープンドメーデータセットで最先端の結果を達成した。
  • カバレッジベースの再ランキングはデータセットを問わず概して良好に機能し、3データセット中2つでしばしば強さベースの再ランキングより上回る。
  • 強さベースの再ランキングは改善をもたらすが、データセット間での安定性はカバレッジベースの方が高い。
  • Quasar-T ではトップ-K 候補リストが高いほどリコールが向上し、再ランキングからの利益が大きくなる。強さベース手法は K=50 周辺、カバレッジベース手法は K=3–5/10 周辺の構成が最良となる。
  • 再ランキング手法を組み合わせると、単一手法より大きな利益を得られ、Quasar-T と SearchQA の従来ベースラインと比較して最大約8ポイント前後の F1 向上が報告される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。