Skip to main content
QUICK REVIEW

[논문 리뷰] Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering

Shuohang Wang, Mo Yu|arXiv (Cornell University)|2017. 11. 14.
Topic Modeling참고 문헌 25인용 수 95
한 줄 요약

본 논문은 다중 단락을 활용하여 증거를 집계하는 두 가지 답변 재랭킹기(강도 기반 및 커버리지 기반)를 제안하며, 개방 도메인 QA를 개선하고 Quasar-T, SearchQA, TriviaQA 개방 도메인 데이터셋에서 주목할 만한 F1 향상을 달성하여 최첨단 성능을 보인다.

ABSTRACT

A popular recent approach to answering open-domain questions is to first search for question-related passages and then apply reading comprehension models to extract answers. Existing methods usually extract answers from single passages independently. But some questions require a combination of evidence from across different sources to answer correctly. In this paper, we propose two models which make use of multiple passages to generate their answers. Both use an answer-reranking approach which reorders the answer candidates generated by an existing state-of-the-art QA model. We propose two methods, namely, strength-based re-ranking and coverage-based re-ranking, to make use of the aggregated evidence from different passages to better determine the answer. Our models have achieved state-of-the-art results on three public open-domain QA datasets: Quasar-T, SearchQA and the open-domain version of TriviaQA, with about 8 percentage points of improvement over the former two datasets.

연구 동기 및 목표

  • 단일 검색 구간을 넘어 다수의 단락에서 증거를 활용하도록 개방 도메인 QA의 필요성을 제시한다.
  • 더 나은 정답 선택을 위해 다수의 단락에 걸쳐 증거를 집계하는 두 가지 재랭킹 전략을 개발한다.
  • 세 개의 공개 개방 도메인 QA 데이터셋에서 최첨단 성능을 보여준다.
  • 두 재랭커의 비교 강점을 분석하고 각 재랭커가 언제 뛰어난 성능을 발휘하는지에 대한 통찰을 제공한다.

제안 방법

  • 질문에 대해 상위 N개의 단락을 검색하는 IR 모델과 해당 단락들에서 후보 정답 span을 생성하는 RC 모델을 사용한다.
  • 각 후보 정답에 대해 다수의 단락에서 증거를 세는 강도 기반 재랭커를 제안한다(발생 횟수 또는 합산 RC 확률).
  • 정답을 포함하는 단락들을 가상의 단락으로 연결하고 이를 질문에 대해 매치-LSTM 기반의 함의 모델에 적용하는 커버리지 기반 재랭커를 제안한다.
  • 추가 학습 없이 softmax 정규화 가중 점수로 두 재랭커를 결합하여 최종 답을 선택한다.
  • 연결된 증거 맥락에 대해 신경적 함의 스타일 아키텍처를 사용하여 Adam으로 커버리지 기반 재랭커를 학습한다.

실험 결과

연구 질문

  • RQ1다수의 단락에서 증거를 집계하는 것이 단일 단락 RC 모델을 넘어 개방 도메인 QA를 개선할 수 있는가?
  • RQ2강도 기반 및 커버리지 기반 증거 집계 전략이 재랭킹 정답에 상호 보완적 이점을 제공하는가?
  • RQ3집계 기반 재랭킹이 개방 도메인 QA 데이터셋에서 어느 정도까지 최첨단 성능을 달성할 수 있는가?
  • RQ4이 설정에서 상위-K 후보 목록과 재랭킹 성능 간의 실용적 트레이드오프는 어떤가?

주요 결과

  • 전체 재랭커(강도 기반과 커버리지 기반 방법을 결합)가 Quasar-T, SearchQA, TriviaQA 개방 도메인 데이터셋에서 최첨단 결과를 달성한다.
  • 커버리지 기반 재랭킹은 일반적으로 데이터셋 전반에서 성능이 좋고 보통 세 데이터셋 중 두 개에서 강도 기반 재랭커를 능가한다.
  • 강도 기반 재랭커는 개선을 제공하지만 커버리지 기반 접근법에 비해 데이터셋 간 안정성이 떨어진다.
  • Quasar-T에서 상위-K 후보 목록이 재현율을 높이고 재랭킹으로부터 더 큰 이득을 가능하게 하며, 강도 기반 방법의 최적 설정은 K=50 근처이고 커버리지 기반 방법은 K=3–5/10 근처다.
  • 재랭커의 조합은 단일 방법보다 더 큰 이득을 낼 수 있으며, Quasar-T 및 SearchQA에서 이전 기준 대비 F1이 최대 약 8 포인트 향상되었다고 보고된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.