QUICK REVIEW

[论文解读] KG^2: Learning to Reason Science Exam Questions with Contextual Knowledge Graph Embeddings

Yuyu Zhang, Hanjun Dai|arXiv (Cornell University)|May 31, 2018

Topic Modeling参考文献 21被引用 23

一句话总结

KG² 提出了一种神经推理框架，通过从问题和支撑句子构建上下文知识图，以提升科学问题问答性能。通过在配对的假设与支撑事实图上进行推理，其在 ARC 挑战集上取得了 31.70 的成绩，相比之前最先进方法显著提升了 17.5%。

ABSTRACT

The AI2 Reasoning Challenge (ARC), a new benchmark dataset for question answering (QA) has been recently released. ARC only contains natural science questions authored for human exams, which are hard to answer and require advanced logic reasoning. On the ARC Challenge Set, existing state-of-the-art QA systems fail to significantly outperform random baseline, reflecting the difficult nature of this task. In this paper, we propose a novel framework for answering science exam questions, which mimics human solving process in an open-book exam. To address the reasoning challenge, we construct contextual knowledge graphs respectively for the question itself and supporting sentences. Our model learns to reason with neural embeddings of both knowledge graphs. Experiments on the ARC Challenge Set show that our model outperforms the previous state-of-the-art QA systems.

研究动机与目标

解决需要超越表面模式的深层推理能力的复杂、逻辑密集型科学考试问题的挑战。
克服现有问答系统尽管使用大规模语料库和神经模型，却在 ARC 挑战集上表现不佳的局限性。
通过将问题题干与答案选项结合生成假设，检索支撑事实，并通过基于图的推理进行验证，模拟开放书考试中人类的问题解决方式。
开发一种可微分的神经框架，学习在知识的结构化表示上进行推理，以提升泛化能力和可解释性。
通过将剩余困难分解为可识别的类别（如缺乏支撑、解析错误、复杂推理等），推动 ARC 基准的发展。

提出的方法

通过将问题题干与每个答案选项结合，利用开放信息抽取（Open IE）提取主语-谓词-宾语三元组，构建假设图。
使用搜索引擎从 ARC 语料库中检索支撑句子，再通过 Open IE 生成支撑事实图，以表示相关知识。
将假设图与支撑图均表示为知识图，其中实体为节点，关系为边，从而支持结构化推理。
训练一种可微分的神经推理引擎，通过比较假设图与支撑图之间的结构模式，预测正确答案。
使用对比学习目标，将假设图中的推理模式与支撑图中的推理模式对齐，以提升泛化能力。
使用梯度下降端到端优化模型，以改进嵌入表示与推理决策，并利用注意力机制聚焦于相关子图。

实验结果

研究问题

RQ1能否通过从问题和支撑事实构建上下文知识图的神经推理模型，在 ARC 挑战集上超越现有问答系统？
RQ2基于图的推理在处理需要高级逻辑与理解能力的问题时，能在多大程度上提升性能？
RQ3当前问答系统在 ARC 挑战集上的主要失败模式是什么？能否通过知识图上的结构化推理加以缓解？
RQ4当知识覆盖范围与解析质量提升时，模型性能如何变化？
RQ5一种可微分的、端到端的知识图推理框架，能否缩小神经问答与人类在科学考试中的表现差距？

主要发现

KG² 在 ARC 挑战集上取得 31.70 的测试成绩，相比之前最先进方法的 26.41 提高了 17.5%。
该模型显著优于所有基线模型，包括 BiDAF（26.54）和 TableILP（26.97），证明了基于图推理的有效性。
随机基线得分仅为 25.02，表明先前方法仅略好于随机猜测，凸显了 ARC 挑战集的难度。
分析显示，50% 的问题在语料库中缺乏足够的支撑信息，表明知识覆盖是主要瓶颈。
12% 的问题因 Open IE 解析错误而失败，表明句子级解析质量的提升可进一步改善性能。
在当前框架下，仅有 15% 的问题可被“学习”，若所有可学习问题均被正确回答，当前方法的上限约为 36.25。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。