[论文解读] Online and Linear-Time Attention by Enforcing Monotonic Alignments
该论文提出一种单调、硬注意力机制,使序列到序列模型的解码在线且线性时间,训练在期望意义上实现,在摘要、翻译和在线语音识别方面取得了具竞争力的结果。
Recurrent neural network models with an attention mechanism have proven to be extremely effective on a wide variety of sequence-to-sequence problems. However, the fact that soft attention mechanisms perform a pass over the entire input sequence when producing each element in the output sequence precludes their use in online settings and results in a quadratic time complexity. Based on the insight that the alignment between input and output sequence elements is monotonic in many problems of interest, we propose an end-to-end differentiable method for learning monotonic alignments which, at test time, enables computing attention online and in linear time. We validate our approach on sentence summarization, machine translation, and online speech recognition problems and achieve results competitive with existing sequence-to-sequence models.
研究动机与目标
- 通过 enforcing 单调的输入–输出对齐,激励并开发一种实现在线和线性时间解码的注意力机制。
- 提出一个可微分的训练方法,在测试时允许在线解码的同时,优化单调注意力过程的期望输出。
- 在句子摘要、机器翻译和在线语音识别上评估该方法,以评估性能与效率之间的权衡。
- 与软注意力基线及其他在线方法进行比较,以展示在解码速度改善的同时具备竞争力的准确性。
提出的方法
- 把软注意力重新表述为随机过程的期望输出,并引入一个从左到右扫描内存并在输出时停止的硬单调注意力过程,从而实现在线和线性时间解码。
- 通过在内存位置上使用递归(alpha)计算期望上下文向量,推导出一个可微分的训练过程,使测试时的非微分采样也能进行反向传播。
- 修改能量函数以包含一个学习偏移 r,并应用权重归一化以稳定训练,在 sigmoid 之前引入高斯噪声以在训练时/测试时的对齐一致性上鼓励 p_{i,j} 的离散性。
- 提供一种对比于对所有内存位置求和归一化的替代方法,以保持在线解码行为并兼容单调解码方案。
实验结果
研究问题
- RQ1单调、硬对齐是否可以端到端学习,以完成序列到序列任务,同时允许在线解码?
- RQ2使用单调注意力机制在训练时的影响是什么,以及通过期望输出来训练与在测试时的硬解码相比,其性能如何?
- RQ3单调注意力模型是否在严格单调域之外的任务(如具有局部重新排序的翻译、句子摘要)上也能实现具有线性时间解码的有竞争力的结果?
- RQ4对能量函数的修改与正则化策略如何影响学习对齐的稳定性与离散性?
主要发现
- 硬单调注意力通过对内存进行从左到右的处理并在发出输出时停止,实现在线、线性时间解码,将复杂度降至 O(max(T,U))。
- 通过单调注意力的期望值进行训练,在保持与软注意力的竞争性表现的同时,使测试时能够在线解码。
- 在 TIMIT 上,硬单调注意力的发音错误率为 20.4%(而 CTC 为 19.6%,离线软单调为 20.1%);软单调解码在这些度量上略好,为 20.1%。
- 在 WSJ 语音识别中,硬单调注意力达到 17.4% 的 WER(软单调为 16.5%,离线 softmax 注意力为 16.0%)。
- 在句子摘要(Gigaword)上,硬单调达到 ROUGE F1 分数:R1=37.14,R2=18.00,R-L=34.87,具有竞争力但略低于强基线;软单端在这些指标上略差。
- 在英法翻译任务上,带在线解码的单调注意力相对于 softmax 基线在困惑度和 BLEU 上仍具竞争力,证明其适用性超出严格单调域。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。