QUICK REVIEW
[论文解读] You May Not Need Attention
Ofir Press, Noah A. Smith|arXiv (Cornell University)|Oct 31, 2018
Topic Modeling参考文献 33被引用 22
一句话总结
本文提出了一种非注意力机制、端到端的循环神经机器翻译模型,将编码器和解码器统一为单一架构,通过在读取首个源词后立即生成目标词,实现低延迟、恒定内存的翻译。该模型在性能上与标准注意力机制模型相当,并在长序列上表现更优,无需注意力机制或独立的编码/解码模块即可获得具有竞争力的BLEU分数。
ABSTRACT
In NMT, how far can we get without attention and without separate encoding and decoding? To answer that question, we introduce a recurrent neural translation model that does not use attention and does not have a separate encoder and decoder. Our eager translation model is low-latency, writing target tokens as soon as it reads the first source token, and uses constant memory during decoding. It performs on par with the standard attention-based model of Bahdanau et al. (2014), and better on long sentences.
研究动机与目标
- 探究神经机器翻译是否可在不使用注意力机制的情况下实现具有竞争力的性能。
- 评估摒弃独立编码器-解码器架构、改用统一的循环序列到序列模型的可行性。
- 通过在处理首个源词后立即生成目标词元,实现低延迟、恒定内存的翻译。
- 探索使用对齐的、可即时处理的句子对进行预处理,是否可有效训练此类模型。
- 将所提模型的性能与标准注意力机制模型进行比较,尤其关注长序列上的表现。
提出的方法
- 该模型使用一个单一的多层LSTM,在每个时间步将输入和输出词嵌入拼接,统一处理源词和目标词。
- 模型在经预处理转换的数据上进行训练,通过插入最少数量的ε(空)词元,使目标序列满足‘即时可行’条件,确保源词索引相对于目标词位置非递减。
- 在目标序列开头添加初始的ε填充词元,使模型在生成输出前能获取更多源上下文,推理时使用束搜索。
- 源词和目标词共享一个嵌入空间,并对LSTM输出应用线性变换以预测下一个目标词。
- 预处理确保对于每个对齐的词对(si, tj),源索引i ≤ 目标索引j,从而实现因果的、基于前缀的翻译。
- 推理过程中,模型在处理每个源词后逐步输出预测结果,通过仅存储当前隐藏状态,实现恒定内存。
实验结果
研究问题
- RQ1神经机器翻译模型是否可在不使用注意力机制的情况下实现具有竞争力的性能?
- RQ2一种无独立编码器和解码器模块的统一循环架构是否仍能保持较强的翻译质量?
- RQ3模型是否可通过在每个源输入后逐步输出词元,实现实时翻译并保持恒定内存使用?
- RQ4该模型的性能与标准注意力机制模型相比如何,尤其是在长序列上的表现?
- RQ5通过插入ε词元以强制实现即时可行性的预处理,在多大程度上提升了训练和推理效率?
主要发现
- 在EN→DE翻译任务中,该模型使用五个初始ε词元时,BLEU得分为28.47,与参考模型的28.56 BLEU得分非常接近。
- 在长序列(81个词以上)上,该模型优于基线注意力模型,FR→EN任务中BLEU得分为27.44,而参考模型仅为22.10。
- 在DE→EN任务中,该模型在长序列(81个词以上)上达到24.73 BLEU,超过参考模型的21.24 BLEU。
- 在短序列(1–20个词)上,该模型表现劣于基线,FR→EN任务中BLEU得分为23.74,而基线为26.22,表明在短序列上存在性能权衡。
- 使用最多五个初始ε填充词元可提升性能,EN→DE任务中BLEU从24.42提升至28.47,表明早期上下文有助于稳定生成过程。
- 解码过程中模型使用恒定内存,因为它仅保留当前隐藏状态,而注意力机制模型需存储所有隐藏状态。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。