QUICK REVIEW

[논문 리뷰] Rapidly Bootstrapping a Question Answering Dataset for COVID-19

Raphael Tang, Rodrigo Nogueira|arXiv (Cornell University)|2020. 04. 23.

Topic Modeling참고 문헌 17인용 수 62

한 줄 요약

CovidQA는 Kaggle의 CORD-19 리뷰로부터 만들어진 COVID-19 주제에 대한 제로샷 및 전이 학습 평가를 위해 설계된 소규모, 수작업으로 만든 질의응답 데이터셋입니다. Baselines는 BM25가 강력하며, 도메인 적응 트랜스포머가 일부 설정에서 이점을 제공합니다.

ABSTRACT

We present CovidQA, the beginnings of a question answering dataset specifically designed for COVID-19, built by hand from knowledge gathered from Kaggle's COVID-19 Open Research Dataset Challenge. To our knowledge, this is the first publicly available resource of its type, and intended as a stopgap measure for guiding research until more substantial evaluation resources become available. While this dataset, comprising 124 question-article pairs as of the present version 0.1 release, does not have sufficient examples for supervised machine learning, we believe that it can be helpful for evaluating the zero-shot or transfer capabilities of existing models on topics specifically related to COVID-19. This paper describes our methodology for constructing the dataset and presents the effectiveness of a number of baselines, including term-based techniques and various transformer-based models. The dataset is available at http://covidqa.ai/

연구 동기 및 목표

Kaggle의 COVID-19 Open Research Dataset Challenge (CORD-19)에서 파생된 COVID-19 도메인 내 임시 QA 테스트 세트를 제공한다.
COVID-19 콘텐츠에 대해 비감독 학습 및 도메인 외 감독 학습 QA 모델을 평가한다.
도메인 적응과 질의 형식(자연어 대 키워드)이 QA 성능에 얼마나 영향을 미치는지 추정한다.

제안 방법

CORD-19의 Kaggle 문헌 검토로부터 124개의 질의-문서 쌍(version 0.1)을 구성한다.
각 쌍마다 해당 문헌에서 정확한 정답 구간을 수동으로 식별한다; 정답 구간이 모호하면 문장 수준의 관련성으로 표시한다.
문서를 문장으로 나타내고 쿼리 q에 대한 관련성을 ρ(q, s_i)라는 점수 함수로 평가한다.
평가는 평균 역순위(MRR), P@1, R@3를 사용하여 순위를 평가한다.
기준선으로 BM25, 일반 BERT 및 도메인-적응 BERT 변형(SciBERT, BioBERT), 도메인 외 감독 모델(SQuAD로 미세조정한 BioBERT, MS MARCO로 미세조정한 BERT/BioBERT, T5)을 비교한다.
실용 시스템을 반영하기 위해 두 단계 정보 접근 관점(검색 후 하이라이트/QA 패스)을 채택한다.

실험 결과

연구 질문

RQ1제로샷 또는 전이 기반 QA 접근 방식이 과학 논문에서 COVID-19 관련 정답 문장을 찾는 데 얼마나 효과적인가?
RQ2COVID-19 콘텐츠에서 도메인 적응 트랜스포머가 전통적인 용어 기반 기준선에 비해 어떤 가치를 더하는가?
RQ3이 도메인에서 자연어 질문이 QA 및 검색 모델을 안내하는 데 키워드 쿼리와 어떻게 비교되는가?
RQ4팬데믹 동안 평가 자원을 신속하게 구축할 때 어떤 실용적 시사점이 도출되는가?

주요 결과

Model	NL Question	Keyword Query	P@1 (NL)	R@3 (NL)	MRR (NL)	P@1 (KW)
Random	0.012	0.034	–	0.012	0.034	–
BM25	0.150	0.216	0.243	0.150	0.216	0.243
BERT (unsupervised)	0.081	0.117	0.159	0.073	0.164	0.187
SciBERT (unsupervised)	0.040	0.056	0.099	0.024	0.064	0.094
BioBERT (unsupervised)	0.097	0.142	0.170	0.129	0.145	0.185
BERT (MS MARCO)	0.194	0.315	0.329	0.234	0.306	0.342
BioBERT (SQuAD)	0.161	0.403	0.336	0.056	0.093	0.135
BioBERT (MS MARCO)	0.194	0.313	0.312	0.185	0.330	0.322
T5 (MS MARCO)	0.282	0.404	0.415	0.210	0.376	0.360

BM25는 강력한 기준선으로 자연어 및 키워드 쿼리 설정 모두에서 여러 비감독 신경 접근법보다 성능이 우수하다.
BioBERT(비감독)는 일반적인 BERT보다 향상되며, 특히 키워드 쿼리에 대해 더 개선되는데, 이는 도메인 적응이 일부 입력 형식에 도움이 됨을 시사한다.
도메인 외 감독 모델들(MS MARCO 또는 SQuAD로 미세조정한)이 비감독 모델보다 우수하며, 테스트된 모델들 중 대체로 T5가 가장 효과적이다.
도메인 적응 이점은 미묘하다: BioBERT는 NL 질문에 도움이 되지만 MS MARCO 미세조정은 일부 BioBERT 이점을 상쇄할 수 있다.
잘 형성된 자연어 질문은 트랜스포머 모델에 대해 키워드 쿼리보다 더 나은 성능을 내는 경향이 있으며, 다단계 검색 파이프라인 설계 시 고려해야 할 점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.