QUICK REVIEW

[论文解读] Rapidly Bootstrapping a Question Answering Dataset for COVID-19

Raphael Tang, Rodrigo Nogueira|arXiv (Cornell University)|Apr 23, 2020

Topic Modeling参考文献 17被引用 62

一句话总结

CovidQA 是一个小型的、人工构建的COVID-19问答数据集，来自 Kaggle 的 CORD-19 评论，旨在评估 QA 模型在 COVID-19 主题上的零-shot 与迁移学习。基线显示 BM25 很强，在某些设置中领域适配的 transformer 提供了好处。

ABSTRACT

We present CovidQA, the beginnings of a question answering dataset specifically designed for COVID-19, built by hand from knowledge gathered from Kaggle's COVID-19 Open Research Dataset Challenge. To our knowledge, this is the first publicly available resource of its type, and intended as a stopgap measure for guiding research until more substantial evaluation resources become available. While this dataset, comprising 124 question-article pairs as of the present version 0.1 release, does not have sufficient examples for supervised machine learning, we believe that it can be helpful for evaluating the zero-shot or transfer capabilities of existing models on topics specifically related to COVID-19. This paper describes our methodology for constructing the dataset and presents the effectiveness of a number of baselines, including term-based techniques and various transformer-based models. The dataset is available at http://covidqa.ai/

研究动机与目标

提供一个临时的 COVID-19 在领域内的问答测试集，源自 Kaggle 的 COVID-19 Open Research Dataset Challenge (CORD-19)。
在 COVID-19 内容上评估无监督与域外有监督的问答模型。
估计领域适应和问题形式（自然语言 vs. 关键词）对 QA 表现的影响程度。

提出的方法

从 CORD-19 的 Kaggle 文献综述中构建 124 对问题–文章对（版本 0.1）。
对于每对，手动在相应文章中识别确切的答案片段；当确切片段模糊时，改为标记句子级相关性。
将文章表示为句子，并通过评分函数 ρ(q, s_i) 对查询 q 的相关性进行评分。
使用 mean reciprocal rank (MRR)、precision at 1 (P@1) 和 recall at 3 (R@3) 来评估排序。
比较基线包括 BM25、原始 BERT 与领域适配版本（SciBERT、BioBERT），以及域外有监督模型（SQuAD 微调 BioBERT、MS MARCO 微调 BERT/BioBERT、T5）。
采用两阶段信息获取视角（先检索再高亮/问答环节）以映射实际系统。

实验结果

研究问题

RQ1零-shot 或基于迁移的 QA 方法在科学文章中定位与 COVID-19 相关的答案句的效果如何？
RQ2在 COVID-19 内容上，域适配的 transformer 相对于传统基于术语的基线有何附加价值？
RQ3在该领域中，自然语言问题与关键词查询在引导 QA 和检索模型方面有何差异？
RQ4在大流行期间快速构建评估资源时会带来哪些实际经验？

主要发现

Model	NL Question	Keyword Query	P@1 (NL)	R@3 (NL)	MRR (NL)	P@1 (KW)
Random	0.012	0.034	–	0.012	0.034	–
BM25	0.150	0.216	0.243	0.150	0.216	0.243
BERT (unsupervised)	0.081	0.117	0.159	0.073	0.164	0.187
SciBERT (unsupervised)	0.040	0.056	0.099	0.024	0.064	0.094
BioBERT (unsupervised)	0.097	0.142	0.170	0.129	0.145	0.185
BERT (MS MARCO)	0.194	0.315	0.329	0.234	0.306	0.342
BioBERT (SQuAD)	0.161	0.403	0.336	0.056	0.093	0.135
BioBERT (MS MARCO)	0.194	0.313	0.312	0.185	0.330	0.322
T5 (MS MARCO)	0.282	0.404	0.415	0.210	0.376	0.360

BM25 是一个强基线，在自然语言和关键词查询设置中均优于若干无监督神经方法。
BioBERT (unsupervised) 优于原生 BERT，特别是对关键词查询，这表明领域适配有助于某些输入风格。
域外有监督模型（微调于 MS MARCO 或 SQuAD）优于无监督对手，在测试的模型中 T5 通常最有效。
域适配的收益是微妙的：BioBERT 有助于自然语言问题，但 MS MARCO 的微调可能抵消部分 BioBERT 的优势。
结构良好的自然语言问题往往比关键词查询为 transformer 模型带来更好的结果，强调多阶段检索管线的设计考量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。