QUICK REVIEW
[논문 리뷰] Technical report on Conversational Question Answering
Ying Ju, Fubang Zhao|arXiv (Cornell University)|2019. 09. 24.
Topic Modeling참고 문헌 20인용 수 42
한 줄 요약
우리는 대화형 QA를 위한 rationale 태깅, 적대적 학습, 지식 증류 및 포스트-프로세싱을 활용한 RoBERTa 기반 시스템을 제안하며, CoQA 테스트에서 90.4 F1 및 단일 모델 최첨단 성능을 달성합니다.
ABSTRACT
Conversational Question Answering is a challenging task since it requires understanding of conversational history. In this project, we propose a new system RoBERTa + AT +KD, which involves rationale tagging multi-task, adversarial training, knowledge distillation and a linguistic post-process strategy. Our single model achieves 90.4(F1) on the CoQA test set without data augmentation, outperforming the current state-of-the-art single model by 2.6% F1.
연구 동기 및 목표
- 대답의 rationale 정보를 활용하여 대화형 QA의 미세조정을 개선하려는 동기 부여.
- 추출을 안내하기 위한 다중 작업 rationale 태깅 도입.
- robustness 향상을 위한 적대적 훈련(AT) 및 가상 적대적 훈련(VAT) 도입.
- 여러 교사 모델로부터 소프트 타깃을 제공하는 지식 증류(KD) 적용.
- CoQA에서 상태-최첨단 결과를 확립하고 추출 모델의 여지를 분석하기 위한 평가.
제안 방법
- 역사 맥락을 결합한 입력을 사용하는 CoQA용 Baseline RoBERTa 설정.
- rationale 태깅 다중 작업으로 rationale에 포함된 토큰을 예측하고 Yes/No/Unk 결정에 이를 통합.
- 워드 임베딩을 섭동하는 방법으로 AT를 통한 적대적 학습 및 비지도 섭동을 위한 VAT.
- 여러 교사 모델을 사용하여 학생 모델에 소프트 타깃을 제공하는 KD.
- 비추출/대체 형태의 답변을 다루기 위한 단어 유사도 기반 포스트-프로세싱 및 GA 주도 모델 선택을 통한 앙상블.
- 크기 제약하에 평균 로짓으로 다수의 모델 앙상블 및 최적화를 위한 유전 알고리즘 적용.
실험 결과
연구 질문
- RQ1루레이션 태깅 및 적대적/지식 증류 학습이 데이터 보강 없이도 대화형 QA의 성능을 향상시킬 수 있는가?
- RQ2자유 형식의 답변이 주어졌을 때 CoQA에서 추출 모델의 실용적 상한은 어느 정도인가?
- RQ3포스트-프로세싱과 앙상블이 단일 모델과 비교하여 CoQA 성능에 어떤 영향을 미치는가?
주요 결과
| 모델 | 도메인 내 | 도메인 외부 | 전체 |
|---|---|---|---|
| Bert-Large Baseline | 82.6 | 78.4 | 81.4 |
| BERT with History Augmented Query | 82.7 | 78.6 | 81.5 |
| Bert + Answer Verification | 83.8 | 81.9 | 82.8 |
| BERT + MMFT + ADA | 86.4 | 81.9 | 85.0 |
| ConvBERT | 87.7 | 85.4 | 86.8 |
| Google SQuAD 2.0 + MMFT | 88.5 | 86.0 | 87.8 |
| Our model | 90.9 | 89.2 | 90.4 |
| Google SQuAD 2.0 + MMFT(Ensemble) | 89.9 | 88.0 | 89.4 |
| Our model(Ensemble) | 91.4 | 89.2 | 90.7 |
| human | 89.4 | 87.4 | 88.8 |
- 단일 모델이 CoQA 테스트에서 90.4 F1(단일 모델 간 최첨단) 달성.
- 消뼈 연구에 따르면 : baseline 89.5 F1; +Rationale Tagging 90.0; +Adversarial Training 90.7; +Knowledge Distillation 91.0; +Post-Processing 91.3.
- 최고의 단일 모델 설정은 dev에서 포스트-프로세싱으로 91.3 F1 달성; 테스트에서 GA가 주도하는 제약된 앙상블 하에서 90.7 F1로 상승(Dev에서 91.8).
- 9개의 모델을 GA로 앙상블하면 CoQA 테스트에서 91.5 F1로 단순 평균(91.2)을 능가.
- 상한 분석은 첫 번째 인간 참조에서 93.0 F1, 네 명의 모든 인간 참조에서 95.1 F1을 시사하며 추출 헤드룸의 한계를 나타냄(4.9%).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.