QUICK REVIEW

[論文レビュー] Generation-Augmented Retrieval for Open-domain Question Answering

Yuning Mao, Pengcheng He|arXiv (Cornell University)|Sep 17, 2020

Topic Modeling参考文献 39被引用数 32

ひとこと要約

Generation-Augmented Retrieval（GAR）は、言語モデルから生成された文脈でクエリを拡張し、スパースBM25と組み合わせた場合にオープンドメイン検索性能とエンドツーエンドのQAを向上させ、DPRのような密なリトリーバと補完的である。

ABSTRACT

We propose Generation-Augmented Retrieval (GAR) for answering open-domain questions, which augments a query through text generation of heuristically discovered relevant contexts without external resources as supervision. We demonstrate that the generated contexts substantially enrich the semantics of the queries and GAR with sparse representations (BM25) achieves comparable or better performance than state-of-the-art dense retrieval methods such as DPR. We show that generating diverse contexts for a query is beneficial as fusing their results consistently yields better retrieval accuracy. Moreover, as sparse and dense representations are often complementary, GAR can be easily combined with DPR to achieve even better performance. GAR achieves state-of-the-art performance on Natural Questions and TriviaQA datasets under the extractive QA setup when equipped with an extractive reader, and consistently outperforms other retrieval methods when the same generative reader is used.

研究の動機と目的

OpenQAリトリーバーの性能を、外部監視なしで生成された文脈でクエリを豊かにすることによって改善する動機付け。
GARを提案し、複数の生成ターゲット（回答、回答を含む文、 passageのタイトル）を生成してクエリを拡張する。
Natural QuestionsとTriviaQAデータセットで、Sparse BM25およびリーダーを用いてGARを評価する。
多様な生成ターゲットが検索を改善し、GARをDenseリトリーバと組み合わせることでさらなる利得が得られることを示す。

提案手法

質問を拡張するために、3つのターゲット（回答、回答を含む文、 passageのタイトル）について事前学習済み言語モデル（BART-large）を用いて文脈を生成する。
生成された文脈を元の質問に付加して生成拡張クエリを形成する。
BM25（スパース）で検索を行い、複数の拡張済みクエリの結果を等しく融合するか、単純な融合手法で結合する。
抽出型リーダー（DPRに類似）と生成型リーダー（BARTを用いた系列to系列）を用いてエンドツーエンドQA性能を評価する。
Natural QuestionsとTriviaQAを用いて、Top-k検索精度とQA指標としてのExact Match（EM）を評価する。
Sparse表現を用いたGarがDPRのような密な手法に匹敵・上回ることを示し、Gar+が単独手法よりも優れる場合があることを示す。

実験結果

リサーチクエスチョン

RQ1Generation-Augmented Retrievalは、BM25およびDPR単独よりもパッセージ検索精度を改善するか？
RQ2異なる生成ターゲット（回答、文、タイトル）は検索にどのように寄与し、融合は有益か？
RQ3GARは密なリトリーバを補完してエンドツーエンドQA性能をさらに改善できるか？
RQ4NQとTriviaQAにおけるGARのエンドツーエンドQA性能は、抽出型と生成型リーディング設定でどうなるか？

主な発見

手法	NQ Top-5	NQ Top-20	NQ Top-100	NQ Top-500	NQ Top-1000	Trivia Top-5	Trivia Top-20	Trivia Top-100	Trivia Top-500	Trivia Top-1000
BM25 (ours)	43.6	62.9	78.1	85.5	87.8	67.7	77.3	83.9	87.9	-
BM25 +RM3	44.6	64.2	79.6	86.8	88.9	67.0	77.1	83.8	87.7	88.9
DPR	68.3	80.1	86.1	90.3	91.2	72.7	80.2	84.8	-	-
Gar	60.9	74.4	85.3	90.3	91.7	73.1	80.4	85.7	-	-
Gar+	70.7	81.6	88.9	92.0	93.2	76.0	82.1	86.6	-	-

GARとBM25は、多くのk値で密な手法と比肩するか、あるいはそれを上回る検索性能をNQとTriviaQAで達成する。
複数の生成ターゲットを用い、結果を融合することで、データセット全体で堅牢な利得が得られる。
Gar+（GARとDPRの融合）は、いずれかの手法単独よりも一貫して検索を改善し、抽出型のOpenQAにおける最先端のエンドツーエンド結果を実現する。
エンドツーエンドの抽出型QA：EM=41.8（Gar+で43.8） on NQ、62.7 on Trivia；生成型QA：EM=38.1（Gar+で45.3） on NQ、62.2 on Trivia。
GARは高い効率性を示し、生成拡張クエリは若干のオーバーヘッドを追加するものの、ベースラインに対して顕著な検索利得をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。