[论文解读] Knowledge Fusion and Semantic Knowledge Ranking for Open Domain Question Answering
本文提出了一种知识融合与语义知识排序框架,以提升在 QASC 和 OpenBookQA 上的开放域问答性能。通过在 BERT 基础模型中引入知识融合模块,并利用基于 BERT 的语义排序模型对检索到的事实进行重排序,该方法实现了最先进性能,在 QASC 上准确率提升 7.28%,在 OpenBookQA 上提升 2.2%。
Open Domain Question Answering requires systems to retrieve external knowledge and perform multi-hop reasoning by composing knowledge spread over multiple sentences. In the recently introduced open domain question answering challenge datasets, QASC and OpenBookQA, we need to perform retrieval of facts and compose facts to correctly answer questions. In our work, we learn a semantic knowledge ranking model to re-rank knowledge retrieved through Lucene based information retrieval systems. We further propose a "knowledge fusion model" which leverages knowledge in BERT-based language models with externally retrieved knowledge and improves the knowledge understanding of the BERT-based language models. On both OpenBookQA and QASC datasets, the knowledge fusion model with semantically re-ranked knowledge outperforms previous attempts.
研究动机与目标
- 解决从外部源检索并组合相关知识以支持开放域问答的挑战。
- 提升 BERT 基础模型在理解与整合领域特定知识以支持多跳推理方面的能力。
- 开发一种鲁棒的语义知识排序模型,利用问题-答案对对检索到的事实进行重排序,减少检索系统带来的噪声。
- 利用 QASC、OpenBookQA 和 SciTail 的标注数据,构建高质量数据集以用于语义知识排序模型的训练。
- 分析知识检索与问答中的失败模式,为未来模型设计提供指导。
提出的方法
- 训练一个基于 BERT 的语义知识排序模型,利用问题-答案对作为输入,对通过 Elasticsearch 检索到的知识事实进行重排序,以提高相关性。
- 引入知识融合模块,将外部知识与预训练 BERT 表示相结合,增强模型对组合事实进行推理的能力。
- 知识融合模型在问题-答案对之间使用共享输入表示,以提升对正确与错误答案选项的区分能力。
- 设计一个多源数据集准备流水线,整合 QASC、OpenBookQA 和 SciTail 的标注数据,生成语义排序任务的正负样本。
- 系统采用两步检索与排序策略:首先通过基于 Lucene 的信息检索方法获取候选事实,然后利用语义模型对结果进行重排序。
- 最终模型结合 RoBERTa 与分步检索、语义知识排序及知识融合模块,以在 QASC 和 OpenBookQA 上实现最优性能。
实验结果
研究问题
- RQ1语义知识排序如何提升开放域问答中检索事实的质量?
- RQ2知识融合对 BERT 基础模型在多跳推理与答案准确率方面有何影响?
- RQ3问答流水线中不同组件(检索、排序、融合)如何影响整体性能与失败模式?
- RQ4当前模型中最常见的推理失败类型(如复杂推理、合取推理或否定推理)是什么?
- RQ5在知识排序中引入与答案相关的表示,如何减少语义相似但答案错误的事实带来的噪声?
主要发现
- 所提模型在 QASC 上达到 80.43% 的测试准确率,相比之前最先进方法提升 7.28%。
- 在 OpenBookQA 上,模型达到 85.20% 的测试准确率,相比先前最佳方法提升 2.2%。
- 语义知识排序模型在验证集上达到 91.56% 的准确率,多数错误为假阳性,即错误答案与相关但错误的事实配对。
- 知识检索失败占 OpenBookQA 中 72% 的错误,表明这是流水线中的主要瓶颈。
- 语义相关但支持错误答案的混淆事实是主要错误来源,尤其在 QASC 中,137 个错误中有 25 个涉及正确事实出现在前 10 名检索结果中。
- 模型对正确预测的置信度高于对错误预测的置信度,表明置信度校准可能进一步提升模型鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。