Skip to main content
QUICK REVIEW

[논문 리뷰] Rapidly Bootstrapping a Question Answering Dataset for COVID-19

Raphael Tang, Rodrigo Nogueira|arXiv (Cornell University)|2020. 04. 23.
Topic Modeling참고 문헌 17인용 수 62
한 줄 요약

CovidQA는 Kaggle의 CORD-19 리뷰로부터 만들어진 COVID-19 주제에 대한 제로샷 및 전이 학습 평가를 위해 설계된 소규모, 수작업으로 만든 질의응답 데이터셋입니다. Baselines는 BM25가 강력하며, 도메인 적응 트랜스포머가 일부 설정에서 이점을 제공합니다.

ABSTRACT

We present CovidQA, the beginnings of a question answering dataset specifically designed for COVID-19, built by hand from knowledge gathered from Kaggle's COVID-19 Open Research Dataset Challenge. To our knowledge, this is the first publicly available resource of its type, and intended as a stopgap measure for guiding research until more substantial evaluation resources become available. While this dataset, comprising 124 question-article pairs as of the present version 0.1 release, does not have sufficient examples for supervised machine learning, we believe that it can be helpful for evaluating the zero-shot or transfer capabilities of existing models on topics specifically related to COVID-19. This paper describes our methodology for constructing the dataset and presents the effectiveness of a number of baselines, including term-based techniques and various transformer-based models. The dataset is available at http://covidqa.ai/

연구 동기 및 목표

  • Kaggle의 COVID-19 Open Research Dataset Challenge (CORD-19)에서 파생된 COVID-19 도메인 내 임시 QA 테스트 세트를 제공한다.
  • COVID-19 콘텐츠에 대해 비감독 학습 및 도메인 외 감독 학습 QA 모델을 평가한다.
  • 도메인 적응과 질의 형식(자연어 대 키워드)이 QA 성능에 얼마나 영향을 미치는지 추정한다.

제안 방법

  • CORD-19의 Kaggle 문헌 검토로부터 124개의 질의-문서 쌍(version 0.1)을 구성한다.
  • 각 쌍마다 해당 문헌에서 정확한 정답 구간을 수동으로 식별한다; 정답 구간이 모호하면 문장 수준의 관련성으로 표시한다.
  • 문서를 문장으로 나타내고 쿼리 q에 대한 관련성을 ρ(q, s_i)라는 점수 함수로 평가한다.
  • 평가는 평균 역순위(MRR), P@1, R@3를 사용하여 순위를 평가한다.
  • 기준선으로 BM25, 일반 BERT 및 도메인-적응 BERT 변형(SciBERT, BioBERT), 도메인 외 감독 모델(SQuAD로 미세조정한 BioBERT, MS MARCO로 미세조정한 BERT/BioBERT, T5)을 비교한다.
  • 실용 시스템을 반영하기 위해 두 단계 정보 접근 관점(검색 후 하이라이트/QA 패스)을 채택한다.

실험 결과

연구 질문

  • RQ1제로샷 또는 전이 기반 QA 접근 방식이 과학 논문에서 COVID-19 관련 정답 문장을 찾는 데 얼마나 효과적인가?
  • RQ2COVID-19 콘텐츠에서 도메인 적응 트랜스포머가 전통적인 용어 기반 기준선에 비해 어떤 가치를 더하는가?
  • RQ3이 도메인에서 자연어 질문이 QA 및 검색 모델을 안내하는 데 키워드 쿼리와 어떻게 비교되는가?
  • RQ4팬데믹 동안 평가 자원을 신속하게 구축할 때 어떤 실용적 시사점이 도출되는가?

주요 결과

ModelNL QuestionKeyword QueryP@1 (NL)R@3 (NL)MRR (NL)P@1 (KW)R@3 (KW)MRR (KW)
Random0.0120.0340.0120.034
BM250.1500.2160.2430.1500.2160.243
BERT (unsupervised)0.0810.1170.1590.0730.1640.187
SciBERT (unsupervised)0.0400.0560.0990.0240.0640.094
BioBERT (unsupervised)0.0970.1420.1700.1290.1450.185
BERT (MS MARCO)0.1940.3150.3290.2340.3060.342
BioBERT (SQuAD)0.1610.4030.3360.0560.0930.135
BioBERT (MS MARCO)0.1940.3130.3120.1850.3300.322
T5 (MS MARCO)0.2820.4040.4150.2100.3760.360
  • BM25는 강력한 기준선으로 자연어 및 키워드 쿼리 설정 모두에서 여러 비감독 신경 접근법보다 성능이 우수하다.
  • BioBERT(비감독)는 일반적인 BERT보다 향상되며, 특히 키워드 쿼리에 대해 더 개선되는데, 이는 도메인 적응이 일부 입력 형식에 도움이 됨을 시사한다.
  • 도메인 외 감독 모델들(MS MARCO 또는 SQuAD로 미세조정한)이 비감독 모델보다 우수하며, 테스트된 모델들 중 대체로 T5가 가장 효과적이다.
  • 도메인 적응 이점은 미묘하다: BioBERT는 NL 질문에 도움이 되지만 MS MARCO 미세조정은 일부 BioBERT 이점을 상쇄할 수 있다.
  • 잘 형성된 자연어 질문은 트랜스포머 모델에 대해 키워드 쿼리보다 더 나은 성능을 내는 경향이 있으며, 다단계 검색 파이프라인 설계 시 고려해야 할 점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.