Skip to main content
QUICK REVIEW

[논문 리뷰] Technical report on Conversational Question Answering

Ying Ju, Fubang Zhao|arXiv (Cornell University)|2019. 09. 24.
Topic Modeling참고 문헌 20인용 수 42
한 줄 요약

우리는 대화형 QA를 위한 rationale 태깅, 적대적 학습, 지식 증류 및 포스트-프로세싱을 활용한 RoBERTa 기반 시스템을 제안하며, CoQA 테스트에서 90.4 F1 및 단일 모델 최첨단 성능을 달성합니다.

ABSTRACT

Conversational Question Answering is a challenging task since it requires understanding of conversational history. In this project, we propose a new system RoBERTa + AT +KD, which involves rationale tagging multi-task, adversarial training, knowledge distillation and a linguistic post-process strategy. Our single model achieves 90.4(F1) on the CoQA test set without data augmentation, outperforming the current state-of-the-art single model by 2.6% F1.

연구 동기 및 목표

  • 대답의 rationale 정보를 활용하여 대화형 QA의 미세조정을 개선하려는 동기 부여.
  • 추출을 안내하기 위한 다중 작업 rationale 태깅 도입.
  • robustness 향상을 위한 적대적 훈련(AT) 및 가상 적대적 훈련(VAT) 도입.
  • 여러 교사 모델로부터 소프트 타깃을 제공하는 지식 증류(KD) 적용.
  • CoQA에서 상태-최첨단 결과를 확립하고 추출 모델의 여지를 분석하기 위한 평가.

제안 방법

  • 역사 맥락을 결합한 입력을 사용하는 CoQA용 Baseline RoBERTa 설정.
  • rationale 태깅 다중 작업으로 rationale에 포함된 토큰을 예측하고 Yes/No/Unk 결정에 이를 통합.
  • 워드 임베딩을 섭동하는 방법으로 AT를 통한 적대적 학습 및 비지도 섭동을 위한 VAT.
  • 여러 교사 모델을 사용하여 학생 모델에 소프트 타깃을 제공하는 KD.
  • 비추출/대체 형태의 답변을 다루기 위한 단어 유사도 기반 포스트-프로세싱 및 GA 주도 모델 선택을 통한 앙상블.
  • 크기 제약하에 평균 로짓으로 다수의 모델 앙상블 및 최적화를 위한 유전 알고리즘 적용.

실험 결과

연구 질문

  • RQ1루레이션 태깅 및 적대적/지식 증류 학습이 데이터 보강 없이도 대화형 QA의 성능을 향상시킬 수 있는가?
  • RQ2자유 형식의 답변이 주어졌을 때 CoQA에서 추출 모델의 실용적 상한은 어느 정도인가?
  • RQ3포스트-프로세싱과 앙상블이 단일 모델과 비교하여 CoQA 성능에 어떤 영향을 미치는가?

주요 결과

모델도메인 내도메인 외부전체
Bert-Large Baseline82.678.481.4
BERT with History Augmented Query82.778.681.5
Bert + Answer Verification83.881.982.8
BERT + MMFT + ADA86.481.985.0
ConvBERT87.785.486.8
Google SQuAD 2.0 + MMFT88.586.087.8
Our model90.989.290.4
Google SQuAD 2.0 + MMFT(Ensemble)89.988.089.4
Our model(Ensemble)91.489.290.7
human89.487.488.8
  • 단일 모델이 CoQA 테스트에서 90.4 F1(단일 모델 간 최첨단) 달성.
  • 消뼈 연구에 따르면 : baseline 89.5 F1; +Rationale Tagging 90.0; +Adversarial Training 90.7; +Knowledge Distillation 91.0; +Post-Processing 91.3.
  • 최고의 단일 모델 설정은 dev에서 포스트-프로세싱으로 91.3 F1 달성; 테스트에서 GA가 주도하는 제약된 앙상블 하에서 90.7 F1로 상승(Dev에서 91.8).
  • 9개의 모델을 GA로 앙상블하면 CoQA 테스트에서 91.5 F1로 단순 평균(91.2)을 능가.
  • 상한 분석은 첫 번째 인간 참조에서 93.0 F1, 네 명의 모든 인간 참조에서 95.1 F1을 시사하며 추출 헤드룸의 한계를 나타냄(4.9%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.