[论文解读] Improving Question Answering with External Knowledge
本文提出通过将来自维基百科的非结构化外部知识以及额外的领域内训练数据整合到微调后的 BERT 模型中,以增强多选题科学问答任务。通过为模糊概念丰富参考语料库并扩充训练数据,该方法在 ARC-Challenge 上实现了高达 13.0% 的准确率提升,在 OpenBookQA 上实现了 12.8% 的提升,证明了非结构化知识在学科领域问答中的关键作用。
We focus on multiple-choice question answering (QA) tasks in subject areas such as science, where we require both broad background knowledge and the facts from the given subject-area reference corpus. In this work, we explore simple yet effective methods for exploiting two sources of external knowledge for subject-area QA. The first enriches the original subject-area reference corpus with relevant text snippets extracted from an open-domain resource (i.e., Wikipedia) that cover potentially ambiguous concepts in the question and answer options. As in other QA research, the second method simply increases the amount of training data by appending additional in-domain subject-area instances. Experiments on three challenging multiple-choice science QA tasks (i.e., ARC-Easy, ARC-Challenge, and OpenBookQA) demonstrate the effectiveness of our methods: in comparison to the previous state-of-the-art, we obtain absolute gains in accuracy of up to 8.1%, 13.0%, and 12.8%, respectively. While we observe consistent gains when we introduce knowledge from Wikipedia, we find that employing additional QA training instances is not uniformly helpful: performance degrades when the added instances exhibit a higher level of difficulty than the original training data. As one of the first studies on exploiting unstructured external knowledge for subject-area QA, we hope our methods, observations, and discussion of the exposed limitations may shed light on further developments in the area.
研究动机与目标
- 提升需要领域特定知识和广泛背景知识的多选题科学问答(QA)任务。
- 探究将非结构化外部知识(特别是来自维基百科的知识)整合到预训练语言模型中以提升学科领域问答性能的有效性。
- 评估通过增加额外的领域内 QA 实例来扩充训练数据是否能提升性能,尤其是在难度水平不同时。
- 识别当新增实例比原始训练数据更复杂时,数据增强策略的局限性。
- 通过分析实证结果和观察到的约束,为未来在学科领域问答中整合外部知识的研究奠定基础。
提出的方法
- 使用命名实体识别和概念链接识别问题和答案选项中的模糊概念。
- 使用密集检索或基于关键词的搜索,为每个识别出的概念检索相关的维基百科片段。
- 通过将检索到的维基百科片段附加到原始学科领域参考语料库中,为每个(问题,选项)对生成扩展文档,从而丰富原始参考语料库。
- 在增强后的训练数据上微调预训练的 BERT 模型,其中每个输入包含问题、候选答案和扩展文档。
- 通过从其他科学问答数据集(如 RACE、SQuAD)中添加额外的领域内 QA 实例来扩充训练集,以提升数据多样性。
- 采用两阶段微调策略:首先在大规模机器阅读理解数据集(如 RACE)上进行预训练,然后在目标学科领域 QA 任务上使用外部知识进行微调。
实验结果
研究问题
- RQ1通过为模糊概念在参考语料库中添加维基百科片段,能否提升科学问答任务的性能?
- RQ2通过数据增强方式增加领域内训练数据量,是否能提升学科领域问答的泛化能力和准确率?
- RQ3额外领域内训练实例的难度水平如何影响模型性能?
- RQ4与结构化知识库相比,来自维基百科的非结构化外部知识在提升科学问答性能方面是否更有效?
- RQ5当新增数据显著比原始训练数据分布更困难时,数据增强策略存在哪些局限性?
主要发现
- 与之前最先进方法相比,该方法在 ARC-Easy 上实现了 8.1% 的绝对准确率提升,在 ARC-Challenge 上提升了 13.0%,在 OpenBookQA 上提升了 12.8%。
- 整合维基百科衍生知识在所有三个基准测试中均持续提升了性能,证明了非结构化外部知识的价值。
- 当额外的领域内训练实例比原始训练数据更难时,性能出现下降,表明数据质量与难度的一致性至关重要。
- 若省略在 RACE 上的预微调步骤,模型性能显著下降,凸显了在大规模机器阅读理解数据上进行预训练的重要性。
- 本研究是首批成功将非结构化维基百科知识整合到预训练语言模型中用于学科领域问答的研究之一,确立了新的基准。
- 结果表明,未来改进应聚焦于联合利用结构化和非结构化外部知识源。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。