[论文解读] FusionNet: Fusing via Fully-Aware Attention with Application to Machine Comprehension
FusionNet 提出基于词汇历史的全知注意力和多级融合来处理上下文和问题,在当时在 SQuAD 和对抗数据集上取得了最先进的结果。
This paper introduces a new neural structure called FusionNet, which extends existing attention approaches from three perspectives. First, it puts forward a novel concept of "history of word" to characterize attention information from the lowest word-level embedding up to the highest semantic-level representation. Second, it introduces an improved attention scoring function that better utilizes the "history of word" concept. Third, it proposes a fully-aware multi-level attention mechanism to capture the complete information in one text (such as a question) and exploit it in its counterpart (such as context or passage) layer by layer. We apply FusionNet to the Stanford Question Answering Dataset (SQuAD) and it achieves the first position for both single and ensemble model on the official SQuAD leaderboard at the time of writing (Oct. 4th, 2017). Meanwhile, we verify the generalization of FusionNet with two adversarial SQuAD datasets and it sets up the new state-of-the-art on both datasets: on AddSent, FusionNet increases the best F1 metric from 46.6% to 51.4%; on AddOneSent, FusionNet boosts the best F1 metric from 56.0% to 60.7%.
研究动机与目标
- 通过利用从词嵌入到高级特征的所有表示层的信息,推动改进的机器阅读理解。
- 开发一个轻量级的全知注意力机制,使用词汇历史来衡量跨文本的交互。
- 提出并验证一个全知多层融合架构,逐层利用问题-上下文信息。
- 在 SQuAD 展现最先进的性能,并在 AddSent 和 AddOneSent 对抗数据集上展示鲁棒性。
提出的方法
- 将历史的词(HoW)定义为跨层对一个词的所有表示的连接。
- 使用对称、带非线性增强的注意力打分函数 S(HoW_Ai, HoW_Bj) 在分解 U^T D U 中定义对角矩阵 D,以稳定训练。
- 实现全知多层融合:使用单独的注意力将从 Q 到 C 的词级及更高层特征融合;在多个层次将 C 融合回 Q;对 C 使用 HoW 进行自增强融合。
- 使用基于 BiLSTM 的阅读和多层融合来产生上下文和问题的理解向量 U_C 和 U_Q,然后通过对这些向量的注意力在 SQuAD 中预测起始和结束位置。
- 在 SQuAD 和对抗性 SQuAD 数据集(AddSent、AddOneSent)上进行评估,并与同期模型进行比较。
实验结果
研究问题
- RQ1历史的词跨越所有表示层被捕捉后,是否能改进注意力和 MRC 的融合?
- RQ2对称的、带非线性增强的全知注意力是否提供训练稳定性和性能提升?
- RQ3多层次、全知融合是否优于单层或朴素融合策略在 MRC 中的表现?
- RQ4FusionNet 在标准和对抗性 MRC 基准测试中的表现如何?
主要发现
- 在当时的单模型和集成配置中,FusionNet 在 SQuAD 上取得了领先结果(集成的 EM 78.8%,F1 85.9%)。
- 在对抗数据集 AddSent 和 AddOneSent 上,FusionNet 将最佳 F1 从 46.6% 提升到 51.4%,以及从 56.0% 提升到 60.7%,分别。
- 全知多层融合结合词汇历史在 EM/F1 上始终优于非全知或单层方法。
- 对称注意力配合非线性在消融研究中优于加法、乘法和缩放等变体。
- 该模型对对抗输入表现出强泛化能力,表明语言理解能力的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。