[论文解读] Densely Connected Attention Propagation for Reading Comprehension
DecaProp 使用 Bidirectional Attention Connectors 将所有 passage-question 层密集连接,并在四个具有挑战性的 RC 数据集上达到最先进的结果,相较于强基线有显著的提升。
We propose DecaProp (Densely Connected Attention Propagation), a new densely connected neural architecture for reading comprehension (RC). There are two distinct characteristics of our model. Firstly, our model densely connects all pairwise layers of the network, modeling relationships between passage and query across all hierarchical levels. Secondly, the dense connectors in our network are learned via attention instead of standard residual skip-connectors. To this end, we propose novel Bidirectional Attention Connectors (BAC) for efficiently forging connections throughout the network. We conduct extensive experiments on four challenging RC benchmarks. Our proposed approach achieves state-of-the-art results on all four, outperforming existing baselines by up to $2.6\%-14.2\%$ in absolute F1 score.
研究动机与目标
- 在 RC 模型中激发更深层的信息流,超越传统的编码-交互-预测流程。
- 提出一种密集连接的架构,将整个层级中的所有 passage 和 query 层连接起来。
- 引入 Bidirectional Attention Connectors (BAC),通过基于注意力的压缩实现密集、跨层的高效连接。
- 证明密集、基于注意力的连接在多个 RC 基准上带来显著的实证提升。
提出的方法
- 将 BAC 作为一个紧凑、可学习的跳过连接器引入,基于压缩的双向注意力输出,使用一个因子分解机(FM)风格的 G(.) 产生标量连接器。
- 构建具有 k 层的 DecaEnc,其中每层通过 BiRNN 处理 P 和 Q,并在所有层对之间通过 BAC 将 P 与 Q 密集连接。
- 在密集传播的表示上使用由门控注意力和门控自注意力组成的 DecaCore 互动模块。
- 将所有 BAC 输出与编码器输出拼接,形成用于答案指针的丰富、多层级的表示 M。
- 使用一个两层 BiRNN 基于的答案指针,在起始/结束索引上以交叉熵进行训练(L(θ) = -log p1 - log p2)。
- 使用 GloVe 嵌入初始化,在训练过程中保持固定,并使用标准 RC 优化设置进行端到端训练。
实验结果
研究问题
- RQ1是否存在显式的密集、基于注意力的跨层连接,能否超越固定深度交互提升 RC 模型的信息流?
- RQ2在 passage 与 question 表示之间的异步跨层连接,是否比同步的同层交互带来可测量的提升?
- RQ3压缩的、基于注意力的连接器(BACs)在在不带来不可承受计算成本的情况下实现大量密集连接方面有多有效?
- RQ4密集连接的注意力传播在多样化 RC 基准上的实证影响是什么?
主要发现
- DecaProp 在四个 RC 基准上取得了最先进的结果:NewsQA、Quasar-T、SearchQA 和 NarrativeQA。
- 在 NewsQA 上,DecaProp 比 AMANDA 提升了 +4.7 EM 和 +2.6 F1,并以显著的优势超过 BiDAF(例如 +16% EM、+14% F1)。
- 在 Quasar-T 上,DecaProp 比 Reinforced Ranker Reader (R3) 提升了 +4.4 EM 和 +6.0 F1,并在 BiDAF 和 GA 上以较大幅度超越(>15% F1)。
- 在 SearchQA 的原始设置中,DecaProp 比 AMANDA 提高了 +15.4 EM 和 +14.2 F1;在综合设置中,相对于 AQA 和 R3 也有显著提升(+18.1 EM / +18 F1)。
- 在 NarrativeQA 上,DecaProp 始终超过基线系统,平均提升约 5%(跨指标)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。