[论文解读] Rapidly Bootstrapping a Question Answering Dataset for COVID-19
CovidQA 是一个小型的、人工构建的COVID-19问答数据集,来自 Kaggle 的 CORD-19 评论,旨在评估 QA 模型在 COVID-19 主题上的零-shot 与迁移学习。基线显示 BM25 很强,在某些设置中领域适配的 transformer 提供了好处。
We present CovidQA, the beginnings of a question answering dataset specifically designed for COVID-19, built by hand from knowledge gathered from Kaggle's COVID-19 Open Research Dataset Challenge. To our knowledge, this is the first publicly available resource of its type, and intended as a stopgap measure for guiding research until more substantial evaluation resources become available. While this dataset, comprising 124 question-article pairs as of the present version 0.1 release, does not have sufficient examples for supervised machine learning, we believe that it can be helpful for evaluating the zero-shot or transfer capabilities of existing models on topics specifically related to COVID-19. This paper describes our methodology for constructing the dataset and presents the effectiveness of a number of baselines, including term-based techniques and various transformer-based models. The dataset is available at http://covidqa.ai/
研究动机与目标
- 提供一个临时的 COVID-19 在领域内的问答测试集,源自 Kaggle 的 COVID-19 Open Research Dataset Challenge (CORD-19)。
- 在 COVID-19 内容上评估无监督与域外有监督的问答模型。
- 估计领域适应和问题形式(自然语言 vs. 关键词)对 QA 表现的影响程度。
提出的方法
- 从 CORD-19 的 Kaggle 文献综述中构建 124 对问题–文章对(版本 0.1)。
- 对于每对,手动在相应文章中识别确切的答案片段;当确切片段模糊时,改为标记句子级相关性。
- 将文章表示为句子,并通过评分函数 ρ(q, s_i) 对查询 q 的相关性进行评分。
- 使用 mean reciprocal rank (MRR)、precision at 1 (P@1) 和 recall at 3 (R@3) 来评估排序。
- 比较基线包括 BM25、原始 BERT 与领域适配版本(SciBERT、BioBERT),以及域外有监督模型(SQuAD 微调 BioBERT、MS MARCO 微调 BERT/BioBERT、T5)。
- 采用两阶段信息获取视角(先检索再高亮/问答环节)以映射实际系统。
实验结果
研究问题
- RQ1零-shot 或基于迁移的 QA 方法在科学文章中定位与 COVID-19 相关的答案句的效果如何?
- RQ2在 COVID-19 内容上,域适配的 transformer 相对于传统基于术语的基线有何附加价值?
- RQ3在该领域中,自然语言问题与关键词查询在引导 QA 和检索模型方面有何差异?
- RQ4在大流行期间快速构建评估资源时会带来哪些实际经验?
主要发现
| Model | NL Question | Keyword Query | P@1 (NL) | R@3 (NL) | MRR (NL) | P@1 (KW) | R@3 (KW) | MRR (KW) |
|---|---|---|---|---|---|---|---|---|
| Random | 0.012 | 0.034 | – | 0.012 | 0.034 | – | ||
| BM25 | 0.150 | 0.216 | 0.243 | 0.150 | 0.216 | 0.243 | ||
| BERT (unsupervised) | 0.081 | 0.117 | 0.159 | 0.073 | 0.164 | 0.187 | ||
| SciBERT (unsupervised) | 0.040 | 0.056 | 0.099 | 0.024 | 0.064 | 0.094 | ||
| BioBERT (unsupervised) | 0.097 | 0.142 | 0.170 | 0.129 | 0.145 | 0.185 | ||
| BERT (MS MARCO) | 0.194 | 0.315 | 0.329 | 0.234 | 0.306 | 0.342 | ||
| BioBERT (SQuAD) | 0.161 | 0.403 | 0.336 | 0.056 | 0.093 | 0.135 | ||
| BioBERT (MS MARCO) | 0.194 | 0.313 | 0.312 | 0.185 | 0.330 | 0.322 | ||
| T5 (MS MARCO) | 0.282 | 0.404 | 0.415 | 0.210 | 0.376 | 0.360 |
- BM25 是一个强基线,在自然语言和关键词查询设置中均优于若干无监督神经方法。
- BioBERT (unsupervised) 优于原生 BERT,特别是对关键词查询,这表明领域适配有助于某些输入风格。
- 域外有监督模型(微调于 MS MARCO 或 SQuAD)优于无监督对手,在测试的模型中 T5 通常最有效。
- 域适配的收益是微妙的:BioBERT 有助于自然语言问题,但 MS MARCO 的微调可能抵消部分 BioBERT 的优势。
- 结构良好的自然语言问题往往比关键词查询为 transformer 模型带来更好的结果,强调多阶段检索管线的设计考量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。