QUICK REVIEW

[论文解读] Learning to Paraphrase for Question Answering

Li Dong, Jonathan Mallinson|arXiv (Cornell University)|Aug 20, 2017

Topic Modeling参考文献 32被引用 25

一句话总结

本文提出 Para4QA，一种神经框架，通过使用问题-答案对作为监督信号，端到端地学习对问题 paraphrase 进行评分和加权。通过将神经评分模型与问答系统相结合，该方法在多个数据集上提升了答案准确率，在 GraphQuestions 上达到最先进性能，并在另外两个数据集上取得具有竞争力的表现，即使使用简单的问答模型亦是如此。

ABSTRACT

Question answering (QA) systems are sensitive to the many different ways natural language expresses the same information need. In this paper we turn to paraphrases as a means of capturing this knowledge and present a general framework which learns felicitous paraphrases for various QA tasks. Our method is trained end-to-end using question-answer pairs as a supervision signal. A question and its paraphrases serve as input to a neural scoring model which assigns higher weights to linguistic expressions most likely to yield correct answers. We evaluate our approach on QA over Freebase and answer sentence selection. Experimental results on three datasets show that our framework consistently improves performance, achieving competitive results despite the use of simple QA models.

研究动机与目标

为解决问答系统对自然语言中表面形式变化敏感的问题。
通过学习识别最可能产生正确答案的 paraphrase，而非同等对待所有 paraphrase，以提升问答系统的鲁棒性。
开发一种灵活的、可端到端训练的框架，利用问题-答案对作为监督信号，联合优化 paraphrase 评分与问答性能。
实现将多种 paraphrase 生成器（例如基于规则的、神经网络的、PPDB）无缝集成到统一的评分与问答流程中。

提出的方法

该框架使用神经评分模型，根据其产生正确答案的可能性，为候选 paraphrase 分配权重。
将原始问题及其 paraphrase 合并输入问答模型，以预测答案分布，其中分数经过归一化后用于加权结果。
整个系统通过问题-答案对作为监督信号进行端到端训练，使模型能够学习任务特定的 paraphrase 质量。
Paraphrase 通过多种方法生成：PPDB、神经机器翻译和 WikiAnswers 提取的规则，随后由神经模型进行评分。
该方法将答案概率分解为 paraphrased 问题的加权和，其中权重由评分模型学习得到。
该框架即插即用，可与多种问答和 paraphrase 模型集成，无需修改架构。

实验结果

研究问题

RQ1在问题-答案对上端到端训练的神经评分模型，能否学会识别最可能产生正确答案的 paraphrase？
RQ2将学习到的 paraphrase 评分整合到问答系统中，是否能在多样化的问答任务中（包括知识库问答和答案句子选择）提升性能？
RQ3该框架在简单问题与复杂问题上的表现如何？它是否从对特定语言结构的 paraphrase 中获益更多？
RQ4该框架能否在不同 paraphrase 生成方法和问答模型之间实现良好泛化？

主要发现

Para4QA 在 GraphQuestions 数据集上达到最先进性能，简单问题的平均 F1 提升 6.5 个百分点，复杂问题提升 3.8 个百分点。
在 WebQuestions 和 FreeLB 上，该框架取得了具有竞争力的结果，表明其在多个问答任务中均实现了稳定性能提升。
模型学会为能提升与知识库谓词重叠度的 paraphrase 分配更高分数，例如将模糊术语如 'sort of part' 替换为 'role'。
模型有效识别并对关键语言成分（如疑问词、焦点结构、关系动词和约束）进行 paraphrase，其中关系动词被最频繁地 paraphrased。
该框架在简单问题上表现更强的性能增益，表明在低复杂度情况下，paraphrase 质量与评分更具可预测性与有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。