[论文解读] Dynamic Coattention Networks For Question Answering
本文提出 Dynamic Coattention Network (DCN),一个端到端的问答模型,具有共注意编码器和一个迭代动态解码器,提升 SQuAD 的答案跨度预测,并且能够从局部最大值中恢复。
Several deep learning models have been proposed for question answering. However, due to their single-pass nature, they have no way to recover from local maxima corresponding to incorrect answers. To address this problem, we introduce the Dynamic Coattention Network (DCN) for question answering. The DCN first fuses co-dependent representations of the question and the document in order to focus on relevant parts of both. Then a dynamic pointing decoder iterates over potential answer spans. This iterative procedure enables the model to recover from initial local maxima corresponding to incorrect answers. On the Stanford question answering dataset, a single DCN model improves the previous state of the art from 71.0% F1 to 75.9%, while a DCN ensemble obtains 80.4% F1.
研究动机与目标
- 通过在 SQuAD 的单次传递模型中处理局部极值来推动问答系统的改进。
- 提出一个共注意编码器,使其对问题和文档进行联合注意。
- 引入一个动态的、迭代的解码器,用以细化答案跨度。
- 展示单模型和集成模型在 SQuAD 上的最先进结果。
提出的方法
- 共注意编码器计算问题与文档之间的亲和矩阵,并导出联结摘要 (C^D, Q),然后通过 Bi-LSTM 进行融合以产生共注意编码 U。
- 动态指向解码器在前一估计的条件下迭代预测起始和结束位置,使用 Highway Maxout Network (HMN) 对起始/结束候选进行打分。
- 训练在各迭代步中最小化累积的 softmax 交叉熵,并在预测稳定或达到最大迭代次数时停止。
- 模型在训练过程中固定使用 GloVe 嵌入、哨兵向量和 dropout;使用 ADAM 进行优化。
- 在 SQuAD 上以 EM 和 F1 指标进行评估,比较单模型与集成性能。
实验结果
研究问题
- RQ1基于共注意的编码与迭代解码器的组合能否提升在 SQuAD 上的问答性能?
- RQ2迭代解码器是否有助于从答案跨度预测中的局部最大值中恢复?
- RQ3编码器选择(共注意 vs. 单注意)和解码器配置对性能的影响是多少?
- RQ4在开发集和测试集上,DCN 与此前及同期模型的表现对比如何?
主要发现
- 单一 DCN 在 SQuAD 测试集达到 75.9% 的 F1(当时的状态最先进)并在开发集达到 70.3 的 EM,开发集 79.4 的 F1。
- 集成 DCN 在测试集达到 80.4% 的 F1(以及 71.2 的 EM),超越其他提交。
- 消融研究显示基于 HMN 的迭代解码器,池大小为 16 时在开发集取得最佳表现(F1 75.6)。
- 用简单的 QA 注意力替代共注意会将开发集 F1 降低约 1.9 点,凸显了共注意的有效性。
- DCN 在不同长度的文档/问题及大多数题型上均表现稳健,误差分布呈双峰,表明既有完全正确也有错误预测较为常见。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。