QUICK REVIEW

[论文解读] Stochastic Answer Networks for SQuAD 2.0

Xiaodong Liu, Wei Li|arXiv (Cornell University)|Sep 24, 2018

Topic Modeling参考文献 13被引用 18

一句话总结

本文提出一种联合学习框架，扩展了随机答案网络（Stochastic Answer Network, SAN）以应用于 SQuAD 2.0 的机器阅读理解任务，通过联合训练跨度检测器与二分类不可回答分类器，实现端到端的不可回答问题处理。该模型在不使用 ELMo 等大规模预训练语言模型的情况下，于开发集上取得了 69.27 的 EM 和 72.20 的 F1 分数，达到当前最优性能，验证了联合优化在处理不可回答问题上的有效性。

ABSTRACT

This paper presents an extension of the Stochastic Answer Network (SAN), one of the state-of-the-art machine reading comprehension models, to be able to judge whether a question is unanswerable or not. The extended SAN contains two components: a span detector and a binary classifier for judging whether the question is unanswerable, and both components are jointly optimized. Experiments show that SAN achieves the results competitive to the state-of-the-art on Stanford Question Answering Dataset (SQuAD) 2.0. To facilitate the research on this field, we release our code: https://github.com/kevinduh/san_mrc.

研究动机与目标

为解决现有模型在机器阅读理解中检测不可回答问题的挑战，这是其主要局限之一。
通过联合训练跨度检测器与不可回答分类器，提升模型的泛化能力与鲁棒性。
设计一种简洁而高效的模型架构，避免依赖 ELMo 等大规模预训练语言模型。
证明联合优化答案跨度检测与不可回答性预测可提升 SQuAD 2.0 任务的整体性能。

提出的方法

模型在 SAN 的基础上扩展，采用共享的底层结构（词典编码、上下文编码、记忆生成），并为跨度检测与不可回答分类任务分别设计专用的顶层结构。
词典编码使用 300D GloVe 嵌入、16D 词性标注、8D 命名实体识别与 4D 硬规则特征，并通过问题增强的篇章嵌入实现软匹配。
上下文编码采用两层双向 LSTM，结合 CoVe 向量以增强上下文表征能力。
不可回答分类器为单层前馈网络，执行成对分类，判断问题-篇章对是否不可回答。
通过多任务损失函数联合训练，结合跨度检测与二分类任务，使用超参数 λ 平衡两项目标。
推理阶段，若分类器预测不可回答的概率 >0.5，则答案设为 NULL。

实验结果

研究问题

RQ1与独立训练相比，联合优化跨度检测与不可回答问题分类是否能提升 SQuAD 2.0 任务的性能？
RQ2所提模型在性能上与使用 ELMo 等大规模预训练语言模型的 SOTA 模型相比如何？
RQ3引入专用的不可回答分类器是否能提升模型检测不可回答问题的能力，同时不损害跨度检测性能？
RQ4在联合训练设置中，跨度检测与不可回答性分类目标之间的最优平衡点是什么？
RQ5通过联合学习与架构设计，不使用 ELMo 的模型是否能在 SQuAD 2.0 上取得具有竞争力的性能？

主要发现

联合模型（Joint SAN）在 SQuAD 2.0 开发集上相比独立的 SAN 基线模型，EM 提升 1.38（69.27 vs. 67.89），F1 提升 1.52（72.20 vs. 70.68）。
在推理阶段加入分类器输出（Joint SAN + Classifier）使 F1 进一步提升 0.46（达 72.66），表明显式不可回答预测具有显著优势。
在阈值为 0.5 时，不可回答分类器在开发集上达到 75.3% 的准确率，当 λ=1.5 时提升至 76.8%。
该模型在不使用 ELMo 的前提下实现了开发集上的 SOTA 性能，优于复杂模型如 R.M-Reader + Verifier，F1 分数高出 0.7。
实验表明联合学习能同时提升两个组件：当模型预测 NULL 时，分类器始终赋予不可回答的高置信度。
ELMo 显著提升性能（如 DocQA 模型 F1 提升 2.8），表明未来引入 ELMo 可能进一步提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。