QUICK REVIEW

[논문 리뷰] R$^3$: Reinforced Reader-Ranker for Open-Domain Question Answering

Shuohang Wang, Mo Yu|arXiv (Cornell University)|2017. 08. 31.

Topic Modeling참고 문헌 34인용 수 87

한 줄 요약

R3는 개방 도메인 QA를 위한 강화된 랭커-리더 시스템을 도입하여 보상 학습(reinforcement learning)으로 패시지 랭커와 리더를 공동으로 학습시켜 최종 문제-답변 성능을 극대화하고, 여러 데이터셋에서 최첨단 성능을 달성한다.

ABSTRACT

In recent years researchers have achieved considerable success applying neural network methods to question answering (QA). These approaches have achieved state of the art results in simplified closed-domain settings such as the SQuAD (Rajpurkar et al., 2016) dataset, which provides a pre-selected passage, from which the answer to a given question may be extracted. More recently, researchers have begun to tackle open-domain QA, in which the model is given a question and access to a large corpus (e.g., wikipedia) instead of a pre-selected passage (Chen et al., 2017a). This setting is more complex as it requires large-scale search for relevant passages by an information retrieval component, combined with a reading comprehension model that "reads" the passages to generate an answer to the question. Performance in this setting lags considerably behind closed-domain performance. In this paper, we present a novel open-domain QA system called Reinforced Ranker-Reader $(R^3)$, based on two algorithmic innovations. First, we propose a new pipeline for open-domain QA with a Ranker component, which learns to rank retrieved passages in terms of likelihood of generating the ground-truth answer to a given question. Second, we propose a novel method that jointly trains the Ranker along with an answer-generation Reader model, based on reinforcement learning. We report extensive experimental results showing that our method significantly improves on the state of the art for multiple open-domain QA datasets.

연구 동기 및 목표

개방 도메인 QA를 폐쇄형 패시지보다 향상시키기 위한 관련 패시지의 효과적 랭킹의 동기 부여.
패시지 선택과 답 추출을 분리하는 두 구성 요소 프레임워크(Ranker와 Reader)를 제안한다.
최종 답변 품질에 대해 패시지 랭킹을 엔드-투-엔드 최적화할 수 있도록 한다.
여러 개의 개방 도메인 QA 데이터셋에서 강력한 실증 이점을 입증한다.

제안 방법

두 구성 요소 아키텍처: 가장 답변 가능성이 높은 패시지를 선택하는 Ranker와 해당 패시지에서 답을 추출하는 Reader.
두 구성 요소 모두 Match-LSTM 기반 표현을 사용하여 질문과 패시지를 주의(attention) 메커니즘으로 비교한다.
Ranker는 Reader가 추출한 정답이 정답 ground-truth와 얼마나 잘 일치하는지에 기반한 보상으로 REINFORCE로 학습한다.
Reader는 선택된 패시지 내에서 올바른 정답 범위를 최대화하도록 SGD/역전파로 학습한다.
훈련은 랭킹에 대한 강화 학습과 읽기에 대한 감독 최적화를 함께 사용하고, Reader 훈련의 안정화를 위해 음수 샘플링을 사용한다.

실험 결과

연구 질문

RQ1강화 학습으로 학습된 별도의 Ranker가 더 정답 가능성이 높은 패시지를 선택함으로써 개방 도메인 QA를 향상시킬 수 있는가?
RQ2Ranker와 Reader의 공동 학습이 단일 Reader 또는 비-강화 기반의 baselines보다 개방 도메인 QA에서 더 우수한가?
RQ3Ranker-Reader 접근 방식이 정답을 포함하는 패시지의 오라클 랭킹에 얼마나 근접할 수 있는가?

주요 결과

R3가 여러 개의 개방 도메인 QA 데이터셋에서 최첨단 결과를 달성한다.
공동 RL 기반 Ranker와 감독 Reader가 내부 베이스라인(단일 Reader 및 단순 Ranker-Reader) 및 여러 공개 베이스라인을 능가한다.
RL로 학습된 Ranker가 비-RL 랭커에 비해 상위 1위/상위 3위 패시지 재현율을 향상시켜 답 추출에 도움을 준다.
F1 기반 가이드가 있는 한정된 보상은 그래디언트 분산을 감소시키고 훈련의 안정성을 높인다.
더 단순한 Ranker-Reader 변형으로 사전 학습한 모델이 공동 학습할 때 성능이 더 좋으며, 엔드-투-엔드 최적화를 통해 개선된다.
여러 데이터셋에서 R3가 베이스라인 대비 큰 향상을 보이며, 개방 도메인 QA에서 패시지 랭킹의 엔드-투-엔드 최적화의 가치를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.