QUICK REVIEW

[논문 리뷰] Technical report on Conversational Question Answering

Ying Ju, Fubang Zhao|arXiv (Cornell University)|2019. 09. 24.

Topic Modeling참고 문헌 20인용 수 42

한 줄 요약

우리는 대화형 QA를 위한 rationale 태깅, 적대적 학습, 지식 증류 및 포스트-프로세싱을 활용한 RoBERTa 기반 시스템을 제안하며, CoQA 테스트에서 90.4 F1 및 단일 모델 최첨단 성능을 달성합니다.

ABSTRACT

Conversational Question Answering is a challenging task since it requires understanding of conversational history. In this project, we propose a new system RoBERTa + AT +KD, which involves rationale tagging multi-task, adversarial training, knowledge distillation and a linguistic post-process strategy. Our single model achieves 90.4(F1) on the CoQA test set without data augmentation, outperforming the current state-of-the-art single model by 2.6% F1.

연구 동기 및 목표

대답의 rationale 정보를 활용하여 대화형 QA의 미세조정을 개선하려는 동기 부여.
추출을 안내하기 위한 다중 작업 rationale 태깅 도입.
robustness 향상을 위한 적대적 훈련(AT) 및 가상 적대적 훈련(VAT) 도입.
여러 교사 모델로부터 소프트 타깃을 제공하는 지식 증류(KD) 적용.
CoQA에서 상태-최첨단 결과를 확립하고 추출 모델의 여지를 분석하기 위한 평가.

제안 방법

역사 맥락을 결합한 입력을 사용하는 CoQA용 Baseline RoBERTa 설정.
rationale 태깅 다중 작업으로 rationale에 포함된 토큰을 예측하고 Yes/No/Unk 결정에 이를 통합.
워드 임베딩을 섭동하는 방법으로 AT를 통한 적대적 학습 및 비지도 섭동을 위한 VAT.
여러 교사 모델을 사용하여 학생 모델에 소프트 타깃을 제공하는 KD.
비추출/대체 형태의 답변을 다루기 위한 단어 유사도 기반 포스트-프로세싱 및 GA 주도 모델 선택을 통한 앙상블.
크기 제약하에 평균 로짓으로 다수의 모델 앙상블 및 최적화를 위한 유전 알고리즘 적용.

실험 결과

연구 질문

RQ1루레이션 태깅 및 적대적/지식 증류 학습이 데이터 보강 없이도 대화형 QA의 성능을 향상시킬 수 있는가?
RQ2자유 형식의 답변이 주어졌을 때 CoQA에서 추출 모델의 실용적 상한은 어느 정도인가?
RQ3포스트-프로세싱과 앙상블이 단일 모델과 비교하여 CoQA 성능에 어떤 영향을 미치는가?

주요 결과

모델	도메인 내	도메인 외부	전체
Bert-Large Baseline	82.6	78.4	81.4
BERT with History Augmented Query	82.7	78.6	81.5
Bert + Answer Verification	83.8	81.9	82.8
BERT + MMFT + ADA	86.4	81.9	85.0
ConvBERT	87.7	85.4	86.8
Google SQuAD 2.0 + MMFT	88.5	86.0	87.8
Our model	90.9	89.2	90.4
Google SQuAD 2.0 + MMFT(Ensemble)	89.9	88.0	89.4
Our model(Ensemble)	91.4	89.2	90.7
human	89.4	87.4	88.8

단일 모델이 CoQA 테스트에서 90.4 F1(단일 모델 간 최첨단) 달성.
消뼈 연구에 따르면 : baseline 89.5 F1; +Rationale Tagging 90.0; +Adversarial Training 90.7; +Knowledge Distillation 91.0; +Post-Processing 91.3.
최고의 단일 모델 설정은 dev에서 포스트-프로세싱으로 91.3 F1 달성; 테스트에서 GA가 주도하는 제약된 앙상블 하에서 90.7 F1로 상승(Dev에서 91.8).
9개의 모델을 GA로 앙상블하면 CoQA 테스트에서 91.5 F1로 단순 평균(91.2)을 능가.
상한 분석은 첫 번째 인간 참조에서 93.0 F1, 네 명의 모든 인간 참조에서 95.1 F1을 시사하며 추출 헤드룸의 한계를 나타냄(4.9%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.