QUICK REVIEW

[논문 리뷰] Generation-Augmented Retrieval for Open-domain Question Answering

Yuning Mao, Pengcheng He|arXiv (Cornell University)|2020. 09. 17.

Topic Modeling참고 문헌 39인용 수 32

한 줄 요약

생성 보강 검색(GAR)은 언어 모델로부터 생성된 컨텍스트로 쿼리를 확장하여 오픈 도메인 검색 성능과 엔드투엔드 QA를 향상시키며, 희소 BM25와 결합될 때 더 큰 효과를 발휘하고 Dense retrievers like DPR과 보완적이다.

ABSTRACT

We propose Generation-Augmented Retrieval (GAR) for answering open-domain questions, which augments a query through text generation of heuristically discovered relevant contexts without external resources as supervision. We demonstrate that the generated contexts substantially enrich the semantics of the queries and GAR with sparse representations (BM25) achieves comparable or better performance than state-of-the-art dense retrieval methods such as DPR. We show that generating diverse contexts for a query is beneficial as fusing their results consistently yields better retrieval accuracy. Moreover, as sparse and dense representations are often complementary, GAR can be easily combined with DPR to achieve even better performance. GAR achieves state-of-the-art performance on Natural Questions and TriviaQA datasets under the extractive QA setup when equipped with an extractive reader, and consistently outperforms other retrieval methods when the same generative reader is used.

연구 동기 및 목표

외부 감독 없이 생성된 컨텍스트로 쿼리를 풍부하게 하여 OpenQA 검색기 성능 개선의 동기를 제시합니다.
GAR를 제안하여 쿼드를 보강하기 위해 여러 생성 타깃(답변, 답변이 포함된 문장, 그리고 단락의 제목)을 생성합니다.
Natural Questions와 TriviaQA 데이터셋으로 희소 BM25 및 리더와 함께 GAR를 평가합니다.
다양한 생성 타깃이 검색을 개선하고 GAR가 밀집 검색기와 결합되어 추가 이익을 낼 수 있음을 보여줍니다.]
method:[

제안 방법

세 가지 타깃: 답변, 답변을 포함하는 문장, 그리고 지문 제목에 대해 사전 학습된 언어 모델(BART-large)을 사용해 컨텍스트를 생성하여 질문을 보강합니다.
생성된 컨텍스트를 원래 질문에 덧붙여 생성 보강 쿼리를 형성합니다.
BM25(희소)를 사용해 검색을 수행하고 다수의 보강 쿼리 결과를 동등하게 융합하거나 간단한 융합 방법으로 결합합니다.
추출적 리더(DPR 유사)와 생성적 리더(Sequence-to-Sequence with BART)를 사용해 엔드-투-엔드 QA 성능을 평가합니다.
Natural Questions와 TriviaQA에서 상위-k 검색 정확도와 Exact Match(EM)를 QA 지표로 사용해 평가합니다.
희소 표현과 GAR가 DPR 같은 밀집 방법과 맞먹거나 능가할 수 있음을 보여주고, Gar+가 개별적으로나 각각보다 더 우수한 성능을 낼 수 있음을 증명합니다.]
research_questions:[

실험 결과

연구 질문

RQ1생성 보강 검색이 BM25 및 단독 DPR보다 문서 검색 정확도를 개선합니까?
RQ2다양한 생성 타깃(답변, 문장, 제목)이 검색에 어떤 기여를 하며 융합이 이로운가요?
RQ3GAR가 밀집 검색기와 보완되어 엔드투엔드 QA 성능을 더 개선할 수 있나요?
RQ4NQ와 TriviaQA에서 추출적 및 생성적 독해 설정의 GAR의 엔드투엔드 QA 성능은 어떠합니까?]
RQ5key_findings:[

주요 결과

Method	NQ Top-5	NQ Top-20	NQ Top-100	NQ Top-500	NQ Top-1000	Trivia Top-5	Trivia Top-20	Trivia Top-100	Trivia Top-500	Trivia Top-1000
BM25 (ours)	43.6	62.9	78.1	85.5	87.8	67.7	77.3	83.9	87.9	-
BM25 +RM3	44.6	64.2	79.6	86.8	88.9	67.0	77.1	83.8	87.7	88.9
DPR	68.3	80.1	86.1	90.3	91.2	72.7	80.2	84.8	-	-
Gar	60.9	74.4	85.3	90.3	91.7	73.1	80.4	85.7	-	-
Gar+	70.7	81.6	88.9	92.0	93.2	76.0	82.1	86.6	-	-

GAR는 BM25와 함께 NQ 및 TriviaQA에서 많은 k 값에 대해 밀집 방법과 동등하거나 더 나은 검색 성능을 달성합니다.
다수의 생성 타깃을 사용하고 결과를 융합하면 데이터셋 전반에 걸쳐 견고한 이득이 나타납니다.
Gar+ (GAR + DPR 융합)는 어느 방법보다도 일관되게 검색 성능을 향상시키며 추출형 OpenQA의 최첨단 엔드투엔드 결과를 달성합니다.
End-to-end Extractive QA: EM=41.8 (Gar+ 43.8) on NQ and 62.7 on Trivia; Generative QA: EM=38.1 (45.3 with Gar+) on NQ and 62.2 on Trivia.
GAR은 생성 보강 쿼리가 약간의 오버헤드를 추가하면서도 기준선 대비 상당한 검색 이득을 제공하는 강력한 효율성을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.