Skip to main content
QUICK REVIEW

[논문 리뷰] A Joint Model for Question Answering and Question Generation

Tong Wang, Xingdi Yuan|arXiv (Cornell University)|2017. 06. 05.
Topic Modeling참고 문헌 31인용 수 82
한 줄 요약

논문은 문서에서 질문을 만들고 대답하는 것을 모두 학습하는 공동 시퀀스-투-시퀀스 모델을 제시하여 SQuAD의 QA 성능을 향상시키고 추상적 답변을 가능하게 한다.

ABSTRACT

We propose a generative machine comprehension model that learns jointly to ask and answer questions based on documents. The proposed model uses a sequence-to-sequence framework that encodes the document and generates a question (answer) given an answer (question). Significant improvement in model performance is observed empirically on the SQuAD corpus, confirming our hypothesis that the model benefits from jointly learning to perform both tasks. We believe the joint model's novelty offers a new perspective on machine comprehension beyond architectural engineering, and serves as a first step towards autonomous information seeking.

연구 동기 및 목표

  • QA와 질문 생성이 서로를 정보를 주고받는 다중 작업(multitask) 설정을 동기 부여하고 분석한다.
  • 서로를 조건으로 질문과 답을 생성할 수 있는 통합된 주의(attention) 기반 시퀀스-투-시퀀스 모델을 개발한다.
  • 공동 학습이 SQuAD에서 QA 정확도와 질문 생성 품질을 향상시키는지 평가한다.

제안 방법

  • 문서에서 복사와 어휘에서 생성 사이를 전환하기 위해 포인터-소프트맥스 디코더를 갖춘 주의(attention) 기반 시퀀스-투-시퀀스 모델을 사용한다.
  • BiLSTMs로 문서와 조건 시퀀스(답변 생성을 위한 질문; 질문 생성을 위한 답변)를 인코딩하고 추출적 조건 벡터를 추출한다.
  • 동일한 모델에 대해 QA와 QG 데이터를 교대로 사용하여 공동 학습 체제를 구현한다.
  • 정답 생성 및 질문 생성 목표를 시퀀스로 표현하고 학습 중에 교사 강제(teacher forcing)를 적용한다.
  • QA에 대한 F1 및 Exact Match를, 질문에 대한 BLEU-4를, 그리고 perplexity 및 생성된 질문의 QA F1과 같은 추가 지표를 사용하여 평가한다.

실험 결과

연구 질문

  • RQ1QA와 질문 생성의 공동 학습이 SQuAD에서 QA 성능을 향상시키는가?
  • RQ2모델이 고품질의 질문을 생성하고, 반대로 QA 정확도를 유지하면서 추상적 답변을 만들어낼 수 있는가?
  • RQ3QA와 QG 작업에서 공유 표현이 추출 대 추상화에 미치는 영향은 무엇인가?

주요 결과

모델F1EMQA F1PPLBLEU-4
A-gen54.541.0---
Q-gen--72.4260.710.8
JointQA63.851.771.6262.510.2
mLSTM68.254.4---
  • 공동 학습은 SQuAD에서 F1과 EM의 약 10% 포인트 만큼 QA 전용 모델보다 향상된 성능을 보인다.
  • 공동 모델은 부분적으로 추상적 정답 생성이 가능하고 질문 생성 품질을 경쟁력 있게 유지한다.
  • 단일 작업 모델이 가장 약한 성능을 보이는 정답 유형에서 QA 성능 향상이 특히 두드러진다.
  • 모델의 질문 생성 BLEU-4와 답변 생성 BLEU-4 지표는 경쟁력 있는 결과를 보이며, 자동 지표가 인간의 판단을 완전히 포착하지는 못한다.
  • 공동 모델의 QA 성능은 특화된 mLSTM QA 모델보다 뒤처지지만, 질문을 생성하는 고유한 능력을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.