QUICK REVIEW

[论文解读] What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams

Di Jin, Eileen Pan|arXiv (Cornell University)|Sep 28, 2020

Topic Modeling参考文献 30被引用 60

一句话总结

本文提出 MedQA，这是一个来自医学执业考试的大规模、多语言开放领域选择题问答数据集，具备医学教材文本语料库，并且基线实验显示当前 OpenQA 系统存在显著挑战。

ABSTRACT

Open domain question answering (OpenQA) tasks have been recently attracting more and more attention from the natural language processing (NLP) community. In this work, we present the first free-form multiple-choice OpenQA dataset for solving medical problems, MedQA, collected from the professional medical board exams. It covers three languages: English, simplified Chinese, and traditional Chinese, and contains 12,723, 34,251, and 14,123 questions for the three languages, respectively. We implement both rule-based and popular neural methods by sequentially combining a document retriever and a machine comprehension model. Through experiments, we find that even the current best method can only achieve 36.7\%, 42.0\%, and 70.1\% of test accuracy on the English, traditional Chinese, and simplified Chinese questions, respectively. We expect MedQA to present great challenges to existing OpenQA systems and hope that it can serve as a platform to promote much stronger OpenQA models from the NLP community in the future.

研究动机与目标

创建一个来自美国、内地和台湾医学执业考试的问题的自由形式多项选择 OpenQA 数据集。
提供一个大型医学教材语料库，以支持基于检索证据的阅读理解。
评估最先进的 OpenQA 方法，以识别瓶颈并指导检索与推理领域未来模型的发展。
分析数据集特征，突出多跳推理和领域特定知识需求等挑战。

提出的方法

构建一个由文档检索器和文档阅读器组成的两组件 OpenQA 系统，遵循 DrQA 框架。
将基于规则的基线（PMI，使用 BM25 的信息检索）与神经模型（包括微调的 BERT/Roberta 家族变体）进行比较。
对问题同时使用英文和中文（简体/繁体），每题设四个选项；对选项顺序进行随机化，并为公平使用对数据进行调整。
在 MedQA 上对预训练语言模型进行微调（例如 BERT、BioBERT、RoBERTa），输入格式为 [CLS] context [SEP] question+options [SEP]。
使用大量英文和中文医学教材作为知识源；对 PDF 进行 OCR 以及在解析前进行预处理。

实验结果

研究问题

RQ1当前的 OpenQA 系统在一个大规模、领域特定的医学 OpenQA 数据集上跨多语言的表现如何？
RQ2在解决复杂的医学病例题时，检索与阅读理解的主要瓶颈是什么？
RQ3多语言的 MedQA 如何影响 OpenQA 的模型性能与跨语言迁移？
RQ4检索到的段落在多跳医学问题上提供充分证据的程度如何？
RQ5错误分析为改进医学 OpenQA 模型的检索与推理提供了哪些见解？

主要发现

即使是最强的模型，在 MedQA 上的准确率也有限，最佳方法在测试集上的得分为 36.7%（美国）、42.0%（繁体中文）和 70.1%（简体中文）。
检索质量是瓶颈，因为当前的信息检索/检索无法在跨越多个段落的证据上维持多跳推理。
预训练语言模型通常在 MCMLE 上超越非预训练基线，但许多模型未能在 USMLE 和 TWMLE 上超越信息检索基线，凸显数据集难度。
数据集呈现两种题型（单知识点 vs. 多跳推理、基于病例的推理），在 USMLE 中更高比例的挑战性 Type 2 问题。
人工专家可以在医学教材语料库中为大多数问题找到足够证据（USMLE 88%、MCMLE 100%、TWMLE 87%），这表明该语料库覆盖度对许多题目是足够的。
错误分析显示检索失败是 USMLE 上错误答案的主要原因，存在两种失败模式：候选疾病过于广泛和需要两步推理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。