Skip to main content
QUICK REVIEW

[论文解读] Strategies for Training Large Vocabulary Neural Language Models

Welin Chen, David Grangier|arXiv (Cornell University)|Dec 15, 2015
Natural Language Processing Techniques参考文献 24被引用 26
一句话总结

本文评估并提出训练大规模词汇量神经语言模型的策略,引入差异化softmax并扩展自归一化以实现更优的似然估计。研究发现,层次化softmax与差异化softmax在大规模基准测试中优于传统softmax,而Kneser-Ney在罕见词上仍表现更优,凸显了神经模型与统计计数模型的互补优势。

ABSTRACT

Training neural network language models over large vocabularies is still computationally very costly compared to count-based models such as Kneser-Ney. At the same time, neural language models are gaining popularity for many applications such as speech recognition and machine translation whose success depends on scalability. We present a systematic comparison of strategies to represent and train large vocabularies, including softmax, hierarchical softmax, target sampling, noise contrastive estimation and self normalization. We further extend self normalization to be a proper estimator of likelihood and introduce an efficient variant of softmax. We evaluate each method on three popular benchmarks, examining performance on rare words, the speed/accuracy trade-off and complementarity to Kneser-Ney.

研究动机与目标

  • 系统比较大规模输出词汇量神经语言模型的训练策略,解决计算成本与可扩展性问题。
  • 评估不同方法在训练速度、准确率与罕见词性能之间的权衡。
  • 提出并验证一种新型softmax变体——差异化softmax,其为高频词分配更多容量。
  • 将自归一化扩展为有效的似然估计器,并评估其相对于其他方法的性能。
  • 研究神经模型与经典Kneser-Ney统计计数模型之间的互补性,尤其关注罕见词性能。

提出的方法

  • 提出差异化softmax,作为标准softmax的变体,通过可学习的缩放机制减少对罕见词的容量分配,从而降低计算成本。
  • 通过更少频率地更新分区函数,将自归一化(稀有归一化)扩展为有效的似然估计器,同时保持无偏梯度估计。
  • 采用前馈神经网络架构,包含词嵌入、多层tanh激活函数,以及最终的softmax或替代归一化层。
  • 在三个基准数据集(Penn Treebank、Gigaword、Billion Word)上评估方法,使用固定的为期一周训练预算,比较速度与准确率的权衡。
  • 使用随机梯度下降(SGD)配合小批量训练,并应用多种初始化技术(如PCA、随机初始化)以评估其对收敛性的影响。
  • 采用目标采样、噪声对比估计(NCE)和层次化softmax(HSM)作为完整softmax的替代方案,每种方法均减轻了归一化计算负担。

实验结果

研究问题

  • RQ1不同归一化策略——softmax、层次化softmax、目标采样、NCE与自归一化——在训练速度、准确率与罕见词性能方面如何比较?
  • RQ2差异化softmax通过为高频词分配更多容量,是否在大规模词汇量下实现比标准softmax更优的性能与更快的训练速度?
  • RQ3自归一化能否被修改为有效的似然估计器,而无需牺牲训练效率或准确率?
  • RQ4随着训练数据规模增加,模型性能如何变化?由于计算约束,神经模型从更大数据集中的收益是否会减弱?
  • RQ5神经语言模型在罕见词上的表现与Kneser-Ney模型相比如何?二者能否有效结合以提升整体性能?

主要发现

  • 差异化softmax通过为高频词分配更多容量,减少对罕见词的计算量,从而实现更优性能与更快训练速度。
  • 在Billion Word基准上,层次化softmax表现优于其他方法,因其速度优势使模型在一周预算内完成更多训练更新,尽管单次迭代准确率较低。
  • Kneser-Ney统计计数模型在罕见词上表现极具竞争力,反驳了‘神经模型天然更擅长建模低频词汇’的普遍观点。
  • 神经模型从更大训练集中的收益低于预期——困惑度在约5亿词后趋于平稳,原因在于计算约束与高昂的训练成本。
  • 目标采样与噪声对比估计(NCE)未能超越标准softmax,其中NCE在所有基准上表现最差。
  • 将Kneser-Ney与神经模型结合可获得优异结果,二者优势互补:神经模型在高频词上表现优异,而Kneser-Ney在罕见词上更胜一筹。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。