QUICK REVIEW

[论文解读] SDNet: Contextualized Attention-based Deep Network for Conversational Question Answering

Chenguang Zhu, Michael Zeng|arXiv (Cornell University)|Dec 10, 2018

Topic Modeling参考文献 14被引用 118

一句话总结

SDNet 引入针对上下文的跨注意力和对话历史上的自注意力，通过对 BERT 进行带锁参数的加权层组合来利用 BERT，以推进对话式问答并在 CoQA 上达到最先进水平。

ABSTRACT

Conversational question answering (CQA) is a novel QA task that requires understanding of dialogue context. Different from traditional single-turn machine reading comprehension (MRC) tasks, CQA includes passage comprehension, coreference resolution, and contextual understanding. In this paper, we propose an innovated contextualized attention-based deep neural network, SDNet, to fuse context into traditional MRC models. Our model leverages both inter-attention and self-attention to comprehend conversation context and extract relevant information from passage. Furthermore, we demonstrated a novel method to integrate the latest BERT contextual model. Empirical results show the effectiveness of our model, which sets the new state of the art result in CoQA leaderboard, outperforming the previous best model by 1.6% F1. Our ensemble model further improves the result by 2.7% F1.

研究动机与目标

通过结合对话历史和段落理解来解决对话问答的挑战。
开发一个神经架构，通过跨注意力和自注意力在上下文中融合信息。
以新颖的、固定参数的方式利用 BERT 的上下文嵌入来提升基于 MRC 的问答。

提出的方法

将前面的 Q/A 回合前置到当前问题，形成用于 MRC 框架的上下文化问题。
使用从问题到段落的跨注意力和词语之间的自注意力来捕捉上下文与查询之间的关系。
通过对 BERT 的层输出进行加权求和并锁定参数来整合 BERT（不可梯度更新）。
应用基于词汇历史的多层注意力高效融合多组 BERT/RNN 表达。
通过起始/结束概率生成答案片段，并在 CoQA 中处理是/否/未知输出的融合步骤（GRU）。
通过最大化地面 truths 的片段概率或是/否/未知标签的似然来实现端到端训练。

实验结果

研究问题

RQ1如何将对话历史有效整合到基于段落的问答以应对多轮提问？
RQ2将跨注意力、自注意力和上下文嵌入结合对问答性能的影响如何？
RQ3锁定 BERT 参数并使用带权层组合是否能提升下游问答任务？
RQ4与此前的最先进模型和基线相比，SDNet 在 CoQA 上的表现如何？

主要发现

SDNet 在 CoQA 的单模型整体 F1 为 76.6%，超越前一代最先进水平 1.6%。
SDNet 集成模型的整体 F1 为 79.3%，进一步超过此前结果。
SDNet 是首个在 CoQA 域内数据上达到 80% F1 的模型（80.7%）。
消融实验显示去掉 BERT 会使 F1 下降 7.15%，而按层加权的 BERT 输出相较仅使用最后一层能提升 F1 1.75%。
在测试历史长度中，前置两轮 QA 问题到当前问题在所测试的历史长度中达到峰值表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。