QUICK REVIEW

[논문 리뷰] Learning to Answer by Learning to Ask: Getting the Best of GPT-2 and BERT Worlds

Tassilo Klein, Moin Nabi|arXiv (Cornell University)|2019. 11. 06.

Topic Modeling참고 문헌 21인용 수 52

한 줄 요약

본 논문은 QA 및 QG를 향상시키기 위해 질문 생성에 GPT-2를, 질문 응답에 BERT를 결합한 협력형 엔드-투-엔드 프레임워크를 제안하고, SQuAD에서 반지도 학습 이득을 시연한다.

ABSTRACT

Automatic question generation aims at the generation of questions from a context, with the corresponding answers being sub-spans of the given passage. Whereas, most of the methods mostly rely on heuristic rules to generate questions, more recently also neural network approaches have been proposed. In this work, we propose a variant of the self-attention Transformer network architectures model to generate meaningful and diverse questions. To this end, we propose an easy to use model consisting of the conjunction of the Transformer decoder GPT-2 model with Transformer encoder BERT for the downstream task for question answering. The model is trained in an end-to-end fashion, where the language model is trained to produce a question-answer-aware input representation that facilitates to generate an answer focused question. Our result of neural question generation from text on the SQuAD 1.1 dataset suggests that our method can produce semantically correct and diverse questions. Additionally, we assessed the performance of our proposed method for the downstream task of question answering. The analysis shows that our proposed generation & answering collaboration framework relatively improves both tasks and is particularly powerful in the semi-supervised setup. The results further suggest a robust and comparably lean pipeline facilitating question generation in the small-data regime.

연구 동기 및 목표

자동 질문 생성(QG)을 동기부여하여 질문 답변(QA)을 지원하고 개선한다.
생성적(GPT-2)과 판별적 QA(BERT)의 보완적 강점을 활용하여 공동 QG-QA 루프를 만든다.
QA 피드백을 사용해 질문 생성을 다듬어 QG의 반지도 학습을 가능하게 한다.
어휘적 유사도 외의 QG 품질 평가를 위한 대리 지표로 QA를 제안한다.
SQuAD 1.1에서 접근법의 견고성과 데이터 효율성을 입증한다.

제안 방법

맥락과 주석이 달린 답변에 조건화하여 질문을 생성하도록 GPT-2를 미세조정하고(답변을 구분하기 위한 특수 토큰 사용, Eq. 2 및 Section 2.2에 설명된 조건화).
맥락과 질문을 주면 정답 구간을 예측하도록 BERT를 QA에 맞게 미세조정하여 QA 피드백 모듈로 작용(Section 2.3).
GPT-2가 질문을 생성하고 QA를 통해 피드백을 받는 엔드투엔드 협업 루프를 생성하고, 생성 품질 향상을 위해서는 오직 GPT-2 매개변수에 대해 역전파를 수행하고(BERT는 역전파에서 제외) (Section 2.3).
데이터를 X_a(답변 가능)와 X_-a(답변 불가능) 세트로 나누고 X_-a를 점진적으로 축소하는 한편 X_a를 재생시키며 훈련을 안정화한다(Section 2.3).
생성된 질문에 대한 QA 성능을 QG 품질의 대리 지표로 사용하고 BLEU/ROUGE 지표를 보완한다(Section 3.2).
SQuAD v1.1에서 QG용 GPT-2와 QA용 BERT를 사전 학습한 뒤, 감독 학습 사전학습을 수행하고 다양한 라벨링 비율로 반지도 평가를 수행한다(Section 3).

실험 결과

연구 질문

RQ1GPT-2 기반 QG 모델이 QA 시스템(BERT)이 제공하는 피드백 신호로부터 이점을 얻어 질문 다양성과 관련성을 향상시킬 수 있는가?
RQ2협력적 QG-QA 프레임워크가 QA 성능을 향상시키고 적은 라벨 상황에서 효과적인 반지도 학습을 가능하게 하는가?
RQ3생성된 질문에 대한 QA 성능이 어휘적 유사도 이상의 QG 품질을 평가하기 위한 실용적인 대리 지표가 되는가?
RQ4QA 모듈의 선택(BERT 대 GPT-2 스타일 QA 헤드)이 QG 피드백 루프의 효과에 어떤 영향을 미치는가?

주요 결과

제안된 GPT-2/BERT 협업은 생성된 질문에 대해 기초 연구 대비 더 높은 BLEU/ROUGE 점수를 얻는 동시에 SQuAD 1.1에서 경쟁력 있는 QA 성능을 달성한다.
QA 성능은 생성된 질문에 대해 BERT 피드백 루프를 사용해 학습된 결과가 실제 QA 벤치마크에 근접하고, 일반적인 GPT-2 생성에 의존한 기초선보다 현저히 우수하다.
반지도 설정에서 본 방법은 라벨링 비율(10%, 20%, 50%, 90%) 전반에서 이전 반지도 QA 방법들을 능가하고, 비율이 높을수록 차이가 커진다.
QA 피드백 모듈로 BERT를 사용하는 것이 컨텍스트에 특화된 양방향 임베딩으로 인해 GPT-2 QA 헤드를 사용하는 것보다 QG에 더 강한 가이드와 다양성을 제공한다.
QA 기반 대리 평가를 통해 생성된 질문이 어휘적 유사도가 낮더라도 QA의 강건성 및 일반화 성능을 향상시킬 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.