[论文解读] Data Noising as Smoothing in Neural Network Language Models
该论文将神经语言模型中的输入数据噪声化与 n-gram 模型中的平滑联系起来,推导出类比于插值和 Kneser-Ney 平滑的噪声化方案,并展示在语言建模和机器翻译中的正则化收益。
Data noising is an effective technique for regularizing neural network models. While noising is widely adopted in application domains such as vision and speech, commonly used noising primitives have not been developed for discrete sequence-level settings such as language modeling. In this paper, we derive a connection between input noising in neural network language models and smoothing in $n$-gram models. Using this connection, we draw upon ideas from smoothing to develop effective noising schemes. We demonstrate performance gains when applying the proposed schemes to language modeling and machine translation. Finally, we provide empirical analysis validating the relationship between noising and smoothing.
研究动机与目标
- 为神经序列模型提供数据扩增的动机,以解决语言建模中的数据稀疏性。
- 形式化输入噪声化与经典 n-gram 平滑方法之间的联系。
- 开发与插值和先进平滑(如 Kneser-Ney)相镜像的噪声化方案。
提出的方法
- 训练最大似然的 RNN/LSTM 语言模型。
- 为输入上下文引入 unigram 和 blank 噪声化方案。
- 证明噪声下的期望伪计数等同于高阶模型与低阶模型之间的插值得到的混合。
- 提出自适应噪声概率和受折扣和 Kneser-Ney 平滑启发的更智能的提案分布。
- 通过对输入和输出序列同时进行噪声化,将噪声扩展到编码器-解码器/序列到序列设置。
实验结果
研究问题
- RQ1输入数据噪声化如何近似 n-gram 语言模型中使用的平滑技术?
- RQ2自适应噪声化和更好的提案分布是否能改善神经序列模型的正则化?
- RQ3基于噪声的方案是否在语言建模和机器翻译中带来收益?
主要发现
- Unigram 噪声化得到的 p(xt|xt-1) 等价于高阶模型与低阶模型的混合(插值)。
- Blank 噪声化和 unigram 噪声化在 n-gram 模型中起到插值平滑的类似作用。
- 自适应折扣在 gamma 值范围内提高了噪声化的有效性。
- 带噪声的模型的 softmax 分布比未带噪声的模型更接近低阶分布(均匀分布和 unigram 频率),验证了平滑类比。
- 对于机器翻译,blank、unigram 和 bigram Kneser-Ney 噪声化在基线 dropout 的基础上提升性能(BLEU 提升)。
- 在 Penn Treebank 和 Text8 的实验中,bigram KN 噪声化带来困惑度改进,MT 的 BLEU 相对于基线大约提升 +0.7 到 +1.4。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。