[论文解读] Breaking the Softmax Bottleneck: A High-Rank RNN Language Model
该论文揭示语言模型中的 Softmax 瓶颈,并提出 Softmax 的混合 (MoS) 以实现更高表示秩,从而在 PTB、WT2 和 1B Word 数据集上改善困惑度。
We formulate language modeling as a matrix factorization problem, and show that the expressiveness of Softmax-based models (including the majority of neural language models) is limited by a Softmax bottleneck. Given that natural language is highly context-dependent, this further implies that in practice Softmax with distributed word embeddings does not have enough capacity to model natural language. We propose a simple and effective method to address this issue, and improve the state-of-the-art perplexities on Penn Treebank and WikiText-2 to 47.69 and 40.68 respectively. The proposed method also excels on the large-scale 1B Word dataset, outperforming the baseline by over 5.6 points in perplexity.
研究动机与目标
- 识别基于常规 Softmax 的语言模型在表达与上下文相关的分布方面的局限性。
- 将语言建模表述为矩阵分解问题,以定义 Softmax 瓶颈。
- 提出 MoS 以在不使参数量急剧增加的情况下提高表达能力。
- 在标准基准上证明困惑度的改进并提供经验秩证据关于秩的提升。
- 讨论 MoS 在标准语言建模之外的泛化性和适用性。
提出的方法
- 将语言建模建模为矩阵分解,其中 Hθ 与 Wθ 表示上下文向量和词嵌入。
- 通过对数概率矩阵 A 及其秩约束来定义 Softmax 瓶颈。
- 引入 Softmax 混合 (Mixture of Softmaxes, MoS),其中 Pθ(x|c)=sum_k πc,k softmax(hc,kᵀ wx) 具有 K 个组成部分。
- 论证 MoS 通过使 MoS 的对数和指数(log-sum-exp)由多个 Softmax 组成部分构成,可以近似更高秩的 A。
- 将 MoS 与 MoC(在特征空间的混合)进行比较,并说明为何 MoS 更好地突破秩瓶颈。
- 提供经验性证据,将提高的秩与困惑度的改进联系起来。
实验结果
研究问题
- RQ1带有分布式词嵌入的标准 Softmax 是否具有足够的容量来建模自然语言中的高度上下文依赖?
- RQ2引入离散潜在组件(MoS)是否能提高对数概率矩阵的有效秩并改善困惑度?
- RQ3在表达力、泛化性和标准基准上的效率方面,MoS 相对于基线(MoC、Softmax)如何?
主要发现
- MoS 在 PTB 和 WT2 上明显提升困惑度,相对于强基线分别达到 47.69 和 40.68。
- 在 1B Word 数据集上,MoS 在可比模型规模下比 Softmax 提高超过 5.6 个困惑度点。
- 实证证据显示 MoS 使对数概率矩阵的秩显著高于 Softmax 或 MoC,在现实词汇量大小下接近满秩。
- 消融研究表明,增益来自 MoS 结构,而非超参数选择或额外层。
- MoS 展示出对上下文敏感的下一个标记预测的改进,并在不过度过拟合的情况下保持具有竞争力的泛化性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。