Skip to main content
QUICK REVIEW

[论文解读] QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Adams Wei Yu, D. Dohan|arXiv (Cornell University)|Apr 23, 2018
Topic Modeling被引用 440
一句话总结

QANet通过使用带卷积和自注意力的前馈架构来消除循环网络,在SQuAD上达到最先进的准确性,同时训练和推断速度要快数倍,通过反向翻译的数据增强进一步提升结果。

ABSTRACT

Current end-to-end machine reading and question answering (Q\\&A) models are primarily based on recurrent neural networks (RNNs) with attention. Despite their success, these models are often slow for both training and inference due to the sequential nature of RNNs. We propose a new Q\\&A architecture called QANet, which does not require recurrent networks: Its encoder consists exclusively of convolution and self-attention, where convolution models local interactions and self-attention models global interactions. On the SQuAD dataset, our model is 3x to 13x faster in training and 4x to 9x faster in inference, while achieving equivalent accuracy to recurrent models. The speed-up gain allows us to train the model with much more data. We hence combine our model with data generated by backtranslation from a neural machine translation model. On the SQuAD dataset, our single model, trained with augmented data, achieves 84.6 F1 score on the test set, which is significantly better than the best published F1 score of 81.8.

研究动机与目标

  • 推动开发避免使用 RNN 的快速阅读理解模型,因为训练/推断时间较慢。
  • 提出一种由卷积和自注意力构成的编码器架构,以捕捉局部和全局文本交互。
  • 展示加速可以使更大规模的数据增强成为可能,从而提升在 SQuAD 上的准确性。

提出的方法

  • 由深度可分离卷积、多头自注意力以及带残差连接与层归一化的前馈层组成的编码器块。
  • 使用三线性相似度的上下文-查询注意力以及附加的查询对上下文的注意力。
  • 对上下文和问题共享编码器权重,模型包含七个编码器块以及两个内部编码器卷积块。
  • 输出层基于对上下文位置的 softmax 分布来预测起始和结束位置。
  • 通过回译(英↔法语/英↔德语)进行数据增强,以创建同义改写的训练样本并提升泛化能力。

实验结果

研究问题

  • RQ1仅基于卷积和自注意力的非循环编码器,能否在 SQuAD 上达到与基于 RNN 的模型相当或更优的准确性?
  • RQ2在不牺牲准确性的前提下,可以在训练和推断方面获得多少速度提升?
  • RQ3基于回译的数据增强是否提高在 SQuAD 上的问答性能,以及哪种数据混合能够产生最佳结果?

主要发现

  • QANet 在 SQuAD 上的准确性与循环模型相当,同时提供显著的加速(训练 3x–13x,推断 4x–9x)。
  • 在 SQuAD 上,单个经过增强数据训练的 QANet 模型在测试集上达到 84.6 的 F1,超过之前的最佳成绩。
  • 采用回译增强的模型(×3)获得了报道的最好开发/测试结果(例如测试 EM/F1 76.2/84.6)。
  • 消融分析显示去除卷积或自注意力会降低性能,证实它们在捕捉局部与全局交互方面的互补作用。
  • 数据增强提升了性能,原始数据与增强数据之间的最佳采样比例可带来明显提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。