Skip to main content
QUICK REVIEW

[论文解读] Rapidly Bootstrapping a Question Answering Dataset for COVID-19

Raphael Tang, Rodrigo Nogueira|arXiv (Cornell University)|Apr 23, 2020
Topic Modeling参考文献 17被引用 62
一句话总结

CovidQA 是一个小型的、人工构建的COVID-19问答数据集,来自 Kaggle 的 CORD-19 评论,旨在评估 QA 模型在 COVID-19 主题上的零-shot 与迁移学习。基线显示 BM25 很强,在某些设置中领域适配的 transformer 提供了好处。

ABSTRACT

We present CovidQA, the beginnings of a question answering dataset specifically designed for COVID-19, built by hand from knowledge gathered from Kaggle's COVID-19 Open Research Dataset Challenge. To our knowledge, this is the first publicly available resource of its type, and intended as a stopgap measure for guiding research until more substantial evaluation resources become available. While this dataset, comprising 124 question-article pairs as of the present version 0.1 release, does not have sufficient examples for supervised machine learning, we believe that it can be helpful for evaluating the zero-shot or transfer capabilities of existing models on topics specifically related to COVID-19. This paper describes our methodology for constructing the dataset and presents the effectiveness of a number of baselines, including term-based techniques and various transformer-based models. The dataset is available at http://covidqa.ai/

研究动机与目标

  • 提供一个临时的 COVID-19 在领域内的问答测试集,源自 Kaggle 的 COVID-19 Open Research Dataset Challenge (CORD-19)。
  • 在 COVID-19 内容上评估无监督与域外有监督的问答模型。
  • 估计领域适应和问题形式(自然语言 vs. 关键词)对 QA 表现的影响程度。

提出的方法

  • 从 CORD-19 的 Kaggle 文献综述中构建 124 对问题–文章对(版本 0.1)。
  • 对于每对,手动在相应文章中识别确切的答案片段;当确切片段模糊时,改为标记句子级相关性。
  • 将文章表示为句子,并通过评分函数 ρ(q, s_i) 对查询 q 的相关性进行评分。
  • 使用 mean reciprocal rank (MRR)、precision at 1 (P@1) 和 recall at 3 (R@3) 来评估排序。
  • 比较基线包括 BM25、原始 BERT 与领域适配版本(SciBERT、BioBERT),以及域外有监督模型(SQuAD 微调 BioBERT、MS MARCO 微调 BERT/BioBERT、T5)。
  • 采用两阶段信息获取视角(先检索再高亮/问答环节)以映射实际系统。

实验结果

研究问题

  • RQ1零-shot 或基于迁移的 QA 方法在科学文章中定位与 COVID-19 相关的答案句的效果如何?
  • RQ2在 COVID-19 内容上,域适配的 transformer 相对于传统基于术语的基线有何附加价值?
  • RQ3在该领域中,自然语言问题与关键词查询在引导 QA 和检索模型方面有何差异?
  • RQ4在大流行期间快速构建评估资源时会带来哪些实际经验?

主要发现

ModelNL QuestionKeyword QueryP@1 (NL)R@3 (NL)MRR (NL)P@1 (KW)R@3 (KW)MRR (KW)
Random0.0120.0340.0120.034
BM250.1500.2160.2430.1500.2160.243
BERT (unsupervised)0.0810.1170.1590.0730.1640.187
SciBERT (unsupervised)0.0400.0560.0990.0240.0640.094
BioBERT (unsupervised)0.0970.1420.1700.1290.1450.185
BERT (MS MARCO)0.1940.3150.3290.2340.3060.342
BioBERT (SQuAD)0.1610.4030.3360.0560.0930.135
BioBERT (MS MARCO)0.1940.3130.3120.1850.3300.322
T5 (MS MARCO)0.2820.4040.4150.2100.3760.360
  • BM25 是一个强基线,在自然语言和关键词查询设置中均优于若干无监督神经方法。
  • BioBERT (unsupervised) 优于原生 BERT,特别是对关键词查询,这表明领域适配有助于某些输入风格。
  • 域外有监督模型(微调于 MS MARCO 或 SQuAD)优于无监督对手,在测试的模型中 T5 通常最有效。
  • 域适配的收益是微妙的:BioBERT 有助于自然语言问题,但 MS MARCO 的微调可能抵消部分 BioBERT 的优势。
  • 结构良好的自然语言问题往往比关键词查询为 transformer 模型带来更好的结果,强调多阶段检索管线的设计考量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。