Skip to main content
QUICK REVIEW

[论文解读] Read + Verify: Machine Reading Comprehension with Unanswerable Questions

Minghao Hu, Furu Wei|arXiv (Cornell University)|Aug 17, 2018
Topic Modeling参考文献 36被引用 20
一句话总结

本文提出了一种用于机器阅读理解的先读后验框架,通过先提取候选答案,再利用专用验证器验证其合法性,从而提升对无答案问题的检测能力。该系统引入了两种辅助损失以增强答案抽取和无答案检测,并评估了三种验证器架构,在提交时(2018年8月28日)于SQuAD 2.0测试集上实现了74.2的F1分数,达到当时最先进水平。

ABSTRACT

Machine reading comprehension with unanswerable questions aims to abstain from answering when no answer can be inferred. In addition to extract answers, previous works usually predict an additional "no-answer" probability to detect unanswerable cases. However, they fail to validate the answerability of the question by verifying the legitimacy of the predicted answer. To address this problem, we propose a novel read-then-verify system, which not only utilizes a neural reader to extract candidate answers and produce no-answer probabilities, but also leverages an answer verifier to decide whether the predicted answer is entailed by the input snippets. Moreover, we introduce two auxiliary losses to help the reader better handle answer extraction as well as no-answer detection, and investigate three different architectures for the answer verifier. Our experiments on the SQuAD 2.0 dataset show that our system achieves a score of 74.2 F1 on the test set, achieving state-of-the-art results at the time of submission (Aug. 28th, 2018).

研究动机与目标

  • 为解决现有模型在无答案问题场景下无法验证预测答案合法性的局限性。
  • 通过辅助损失解耦答案抽取与无答案预测,提升无答案检测能力。
  • 引入验证阶段,检查候选答案是否由文本和问题所蕴含,从而增强对否定、反义词等语言现象的鲁棒性。
  • 评估多种验证器架构,识别在局部蕴含检测中最有效的设计。

提出的方法

  • 该系统采用两阶段架构:首先由阅读器抽取候选答案并估计无答案概率,随后由验证器验证答案的合法性。
  • 引入两种辅助损失:独立跨度损失以在不考虑答案可回答性的情况下提升答案抽取性能,以及独立的无答案损失以在不与共享归一化干扰的情况下增强无答案检测。
  • 验证器使用自然语言蕴含(NLI)技术,评估提取的答案是否在逻辑上被文本和问题所支持,采用三种架构:序列式、交互式和混合式。
  • 验证器将答案句与问题进行比较,以检测局部蕴含,重点关注否定、反义词和不可能条件等语言现象。
  • 阅读器使用ELMo嵌入以改善上下文表征,最终预测结合阅读器输出与验证器决策。
  • 系统在SQuAD 2.0上进行评估,该基准包含可回答与不可回答的问题,使用F1和EM分数作为评估指标。

实验结果

研究问题

  • RQ1与端到端模型相比,两阶段的先读后验框架是否能提升对无答案问题的鲁棒性?
  • RQ2辅助损失在解耦并增强答案抽取与无答案检测方面效果如何?
  • RQ3在序列式、交互式和混合式架构中,哪种设计在答案验证中表现最佳?
  • RQ4在答案与问题之间进行局部蕴含检测是否能提升对无答案问题的识别能力,特别是对复杂语言现象?
  • RQ5与基线模型相比,集成验证器是否能显著提升SQuAD 2.0上的F1性能?

主要发现

  • 所提系统在SQuAD 2.0测试集上取得了74.2的F1分数,为提交时(2018年8月28日)的最先进水平。
  • 使用ELMo嵌入后,阅读器单独在开发集上达到73.7的F1,而完整系统结合验证器后提升至74.8的F1。
  • 系统降低了否定和反义词情况下的错误率,否定错误从9%降至0%(在错误集中),且20个反义词示例中仅4个被错误分类。
  • 剩余错误中的大多数(46%)源于不可能条件及其他中性现象,表明在检测复杂推理失败方面仍具挑战。
  • 混合验证器架构优于单独的序列式与交互式模型,表明结合全局与局部建模可提升验证准确性。
  • 消融实验确认,两种辅助损失均显著提升性能,其中跨度损失增强答案抽取,无答案损失减少检测中的干扰。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。