QUICK REVIEW

[论文解读] Question Answering as Global Reasoning over Semantic Abstractions

Daniel Khashabi, Tushar Khot|arXiv (Cornell University)|Jun 9, 2019

Topic Modeling被引用 56

一句话总结

SemanticILP 构建了一个全局推理框架，通过多种语义抽象将问题、答案和文本连接起来，作为一个 ILP 形式来选择最优的支撑图。它在科学问答数据集上相对于基线提升 2–6%，并在生物领域取得了强劲的结果且不需要领域特定监督。

ABSTRACT

We propose a novel method for exploiting the semantic structure of text to answer multiple-choice questions. The approach is especially suitable for domains that require reasoning over a diverse set of linguistic constructs but have limited training data. To address these challenges, we present the first system, to the best of our knowledge, that reasons over a wide range of semantic abstractions of the text, which are derived using off-the-shelf, general-purpose, pre-trained natural language modules such as semantic role labelers, coreference resolvers, and dependency parsers. Representing multiple abstractions as a family of graphs, we translate question answering (QA) into a search for an optimal subgraph that satisfies certain global and local properties. This formulation generalizes several prior structured QA systems. Our system, SEMANTICILP, demonstrates strong performance on two domains simultaneously. In particular, on a collection of challenging science QA datasets, it outperforms various state-of-the-art approaches, including neural models, broad coverage information retrieval, and specialized techniques using structured knowledge bases, by 2%-6%.

研究动机与目标

解决需要对多样化语言现象进行推理的数据稀缺领域。
利用多种通用 NLP 工具来创建关于 Q、A、P 的丰富语义图表示。
将问答表述为通过带有全局／局部约束的 ILP 选择一个最优、连贯的支撑图 G*。
在科学（从小学到初中）和生物阅读理解数据集上展示跨领域的有效性。

提出的方法

将 Q、A、P 表示为来自多种 NLP 模块（SRL、指代、依存分析等）的语义图族。
使用词汇/语义资源（WordNet、Paragram）在 Q、A、P 之间增加相似性/蕴涵边。
定义一个增强图 I+ 以及一组约束，以约束使能将 Q 连接到单个 A 的通过 P 的有效支撑图 G。
把 ILP 公式化以最大化节点/边的加权分数与软约束，选取最优的 G*。
使用多种标注者组合来创建求解器合集，并通过线性打分计算每个答案的置信度。
如有需要，通过创建段落片段来组合来自多个数据集的结果，并使用求解器集成。

实验结果

研究问题

RQ1如何通过对多种语义抽象进行推理而非仅依赖表面文本来提升问答性能？
RQ2在数据稀缺领域，使用广泛且嘈杂的语义图表示进行推理是否优于神经基线？
RQ3使用多种 SRL/语言视角（动词/名词/介词 SRL、指代、依存关系）对问答性能有何影响？
RQ4基于 ILP 的全局推理框架是否在没有领域特定监督的情况下实现跨领域（科学与生物）泛化？

主要发现

数据集	BiDAF	BiDAF’	IR	TupleInf	SemanticILP
Regents 4th	56.3	53.1	59.3	61.4	67.6
AI2Public 4th	50.7	57.4	54.9	56.1	59.7
Regents 8th	53.5	62.8	64.2	61.3	66.0
AI2Public 8th	47.7	51.9	52.8	51.6	55.9
ProcessBank (Biology)	68.1	61.9	63.8	58.7	67.9

SemanticILP 在科学数据集上持续优于基线，获得了最多 2–6% 的绝对提升。
在生物 ProcessBank 数据上，SemanticILP 的性能与领域特定方法相比具竞争力，并超越若干基线，在所报告的设置中达到 67.9%。
该方法在 ILP 大小和复杂度上具有可扩展性，平均变量约为 ~2255，约 ~4519 的约束；由于图构建过程，模型创建时间比一些基线更长。
消融分析显示标注者组合在不同领域的重要性不同，在生物领域某些组合带来更强结果，在小学科学领域则由其他组合驱动更强结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。