QUICK REVIEW

[논문 리뷰] Multi-hop Question Answering via Reasoning Chains

Jifan Chen, Shih-Ting Lin|arXiv (Cornell University)|2019. 10. 07.

Topic Modeling참고 문헌 43인용 수 66

한 줄 요약

이 논문은 텍스트 전반에서 이산적 추론 체인을 추출하고 BERT 기반 QA 모듈을 사용해 최종 답을 생성하는 2단계 모델을 제시하여 WikiHop에서 최첨단 결과를 달성하고 Gold 지원 사실 없이 HotpotQA에서도 강력한 성능을 보인다.

ABSTRACT

Multi-hop question answering requires models to gather information from different parts of a text to answer a question. Most current approaches learn to address this task in an end-to-end way with neural networks, without maintaining an explicit representation of the reasoning process. We propose a method to extract a discrete reasoning chain over the text, which consists of a series of sentences leading to the answer. We then feed the extracted chains to a BERT-based QA model to do final answer prediction. Critically, we do not rely on gold annotated chains or "supporting facts:" at training time, we derive pseudogold reasoning chains using heuristics based on named entity recognition and coreference resolution. Nor do we rely on these annotations at test time, as our model learns to extract chains from raw text alone. We test our approach on two recently proposed large multi-hop question answering datasets: WikiHop and HotpotQA, and achieve state-of-art performance on WikiHop and strong performance on HotpotQA. Our analysis shows the properties of chains that are crucial for high performance: in particular, modeling extraction sequentially is important, as is dealing with each candidate sentence in a context-aware way. Furthermore, human evaluation shows that our extracted chains allow humans to give answers with high confidence, indicating that these are a strong intermediate abstraction for this task.

연구 동기 및 목표

다중 텍스트 부분에서 정보를 필요로 하는 답변을 요하는 다중-힙 QA를 동기화한다.
답으로 이어지는 문장 시퀀스를 식별하는 이산적이고 학습 가능한 추론 체인 추출기를 도입한다.
추출된 체인을 사용해 최종 답을 예측하는 두 번째 단계의 QA 모듈(BERT 기반)을 활용한다.
훈련 시 Gold-지원 체인을 필요로 하지 않고 해당 주석이 없는 테스트 상황에서도 휴리스틱 의사-지상실 체인을 사용하여 학습을 가능하게 한다.
WikiHop 및 HotpotQA에서 접근 방식을 시演하고 성능에 중요한 체인 속성을 분석한다.

제안 방법

질문과 관련 사실에 연결되는 문장의 시퀀스로 추론 체인을 정의한다.
학습 시도용으로 NER 기반 간선과 문단 내 연결을 사용해 보조 그래프를 구성하고 의사-지상실 체인을 생성한다(오라클).
BERT(BERT-Para 또는 BERT-Sent 변형)로 문장을 인코딩하고 포인터 네트워크를 사용해 문장 인덱스 시퀀스를 출력하는 체인 추출기를 학습한다.
오라클 체인 토큰의 음의 로그우도(NLL)로 학습하고 빔 탐색으로 다수의 후보 체인을 생성해 테스트한다.
상위 체인을 BERT 기반의 답 예측기에 입력하여 최종 답을 도출한다(HotpotQA의 경우 RoBERTa 사용). 데이터세트별 출력 헤드(다지선다형/스팬 추출)를 적용한다.
연속 체인 추출과 무순서 문장 선택을 비교해 순서의 이점을 보여준다.

실험 결과

연구 질문

RQ1Gold 체인 없이도 다중-힙 QA를 위한 의사-지상실 추론 체인을 자동으로 도출할 수 있는가?
RQ2연속적 체인 추출 모델이 무순서 또는 비-체인 기반 방법에 비해 최종 QA 성능을 향상시키는가?
RQ3추출된 체인이 최종 정답 예측을 얼마나 잘 지원하는가, 인간 주석 지원 사실과의 비교는 어떠한가?
RQ4다른 체인 감독 신호와 빔 크기가 QA 정확도에 어떤 영향을 미치는가?
RQ5추출된 체인이 인간의 이해에 있어 신뢰할 수 있고 유용한 중간 표현인가?

주요 결과

연속 디코딩을 갖춘 체인 추출기가 WikiHop 및 HotpotQA 전반에서 무순서 문장 선택보다 QA 성능을 향상시킨다.
문장 인코딩에 더 많은 맥락을 사용하면(BERT-Para 대 BERT-Sent) 일부 설정에서 약 5%의 QA 성능 향상을 보이며, 문장 간 관계가 중요하다는 것을 시사한다.
상위 5개 체인 앙상블이 체인 불확실성을 유지하면서 하류 QA의 재현율과 F1을 크게 향상시킨다.
이 접근법은 테스트 시 Gold 지원 사실에 의존하지 않고 WikiHop에서 최첨단 결과와 HotpotQA에서 강력한 성능을 달성한다.
인간 평가에서 추출된 체인이 주석된 지원 사실을 사용할 때와 비교해도 자신 있게 답할 수 있는 능력을 제공하며 체인을 신뢰할 만한 중간 표현으로 지지한다.
정렬된 체인 추출이 무순서 추출보다 우수하며, 특히 보다 강한 다중-힙 추론이 필요한 데이터셋에서 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.