QUICK REVIEW

[论文解读] Breaking the Softmax Bottleneck: A High-Rank RNN Language Model

Zhilin Yang, Zihang Dai|arXiv (Cornell University)|Nov 10, 2017

Topic Modeling参考文献 34被引用 64

一句话总结

该论文揭示语言模型中的 Softmax 瓶颈，并提出 Softmax 的混合 (MoS) 以实现更高表示秩，从而在 PTB、WT2 和 1B Word 数据集上改善困惑度。

ABSTRACT

We formulate language modeling as a matrix factorization problem, and show that the expressiveness of Softmax-based models (including the majority of neural language models) is limited by a Softmax bottleneck. Given that natural language is highly context-dependent, this further implies that in practice Softmax with distributed word embeddings does not have enough capacity to model natural language. We propose a simple and effective method to address this issue, and improve the state-of-the-art perplexities on Penn Treebank and WikiText-2 to 47.69 and 40.68 respectively. The proposed method also excels on the large-scale 1B Word dataset, outperforming the baseline by over 5.6 points in perplexity.

研究动机与目标

识别基于常规 Softmax 的语言模型在表达与上下文相关的分布方面的局限性。
将语言建模表述为矩阵分解问题，以定义 Softmax 瓶颈。
提出 MoS 以在不使参数量急剧增加的情况下提高表达能力。
在标准基准上证明困惑度的改进并提供经验秩证据关于秩的提升。
讨论 MoS 在标准语言建模之外的泛化性和适用性。

提出的方法

将语言建模建模为矩阵分解，其中 Hθ 与 Wθ 表示上下文向量和词嵌入。
通过对数概率矩阵 A 及其秩约束来定义 Softmax 瓶颈。
引入 Softmax 混合 (Mixture of Softmaxes, MoS)，其中 Pθ(x|c)=sum_k πc,k softmax(hc,kᵀ wx) 具有 K 个组成部分。
论证 MoS 通过使 MoS 的对数和指数（log-sum-exp）由多个 Softmax 组成部分构成，可以近似更高秩的 A。
将 MoS 与 MoC（在特征空间的混合）进行比较，并说明为何 MoS 更好地突破秩瓶颈。
提供经验性证据，将提高的秩与困惑度的改进联系起来。

实验结果

研究问题

RQ1带有分布式词嵌入的标准 Softmax 是否具有足够的容量来建模自然语言中的高度上下文依赖？
RQ2引入离散潜在组件（MoS）是否能提高对数概率矩阵的有效秩并改善困惑度？
RQ3在表达力、泛化性和标准基准上的效率方面，MoS 相对于基线（MoC、Softmax）如何？

主要发现

MoS 在 PTB 和 WT2 上明显提升困惑度，相对于强基线分别达到 47.69 和 40.68。
在 1B Word 数据集上，MoS 在可比模型规模下比 Softmax 提高超过 5.6 个困惑度点。
实证证据显示 MoS 使对数概率矩阵的秩显著高于 Softmax 或 MoC，在现实词汇量大小下接近满秩。
消融研究表明，增益来自 MoS 结构，而非超参数选择或额外层。
MoS 展示出对上下文敏感的下一个标记预测的改进，并在不过度过拟合的情况下保持具有竞争力的泛化性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。