[论文解读] Pointing the Unknown Words
本文提出Pointer Softmax(PS),一种新型的基于注意力的机制,使神经语言模型能够动态选择从预定义的简短词汇表中生成词语,或直接从输入上下文中复制词语。通过使用可学习的切换网络来决定何时进行指代,该模型在神经机器翻译和文本摘要任务中显著提升了对罕见词和未登录词的处理能力,在Europarl英法翻译任务中实现了3.6个BLEU分数的提升,并且收敛速度更快。
The problem of rare and unknown words is an important issue that can potentially influence the performance of many NLP systems, including both the traditional count-based and the deep learning models. We propose a novel way to deal with the rare and unseen words for the neural network models using attention. Our model uses two softmax layers in order to predict the next word in conditional language models: one predicts the location of a word in the source sentence, and the other predicts a word in the shortlist vocabulary. At each time-step, the decision of which softmax layer to use choose adaptively made by an MLP which is conditioned on the context.~We motivate our work from a psychological evidence that humans naturally have a tendency to point towards objects in the context or the environment when the name of an object is not known.~We observe improvements on two tasks, neural machine translation on the Europarl English to French parallel corpora and text summarization on the Gigaword dataset using our proposed model.
研究动机与目标
- 为解决神经NLP模型中罕见词和未登录词的问题,该问题限制了低频词和未见词汇的性能表现。
- 通过在需要时直接从输入上下文复制词语,提升序列到序列任务中的泛化能力和鲁棒性。
- 开发一种联合学习框架,结合基于短名单的生成与基于上下文的复制,采用可学习的切换机制。
- 在低资源和OOV(词汇表外)场景下,加速模型收敛并提升测试性能。
提出的方法
- 模型使用两个并行的softmax层:一个用于从预定义的短名单中预测词语,另一个用于关注并从输入上下文中复制词语。
- 一个可微分的切换网络(带有残差连接和噪声tanh激活的两层MLP)在每个时间步决定是使用短名单还是上下文指针。
- 该切换网络基于当前隐藏状态和上下文向量进行条件计算,实现生成与复制之间的自适应选择。
- 注意力机制在输入词语上计算上下文感知的概率,使模型能够‘指向’源序列中的相关词语。
- 整个模型通过一个联合目标函数进行端到端训练,该函数同时包含预测损失和复制损失。
- 当梯度范数超过1时应用梯度裁剪,以稳定训练过程。
实验结果
研究问题
- RQ1可学习的切换机制是否能改善序列到序列模型中对罕见词和未登录词的处理?
- RQ2结合基于短名单的生成与基于上下文的复制,是否能提升神经机器翻译和文本摘要任务的性能?
- RQ3模型能否在无需显式监督的情况下,学会在何时何处指向未见或罕见词语?
- RQ4与使用短名单的标准softmax相比,使用Pointer Softmax是否能加速训练收敛?
主要发现
- Pointer Softmax模型在Europarl英法翻译任务中取得了23.76的BLEU分数,相比基线NMT模型(使用标准softmax)提升了3.6个BLEU点。
- 使用Pointer Softmax的模型收敛更快,在20万次更新后达到63.91的验证负对数似然(NLL),而基线模型在40万次更新后才达到该性能。
- 在Gigaword文本摘要数据集上,即使结合了大词汇量技巧,Pointer Softmax仍能提升性能,表明其对OOV词具有强鲁棒性。
- 在切换网络中使用带有噪声tanh激活和残差连接的两层MLP,相比基于ReLU的替代方案,BLEU分数提升了约1分。
- 模型能够有效指向源句中的命名实体和罕见词,实现在短名单中不存在这些词的情况下仍能准确复制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。