[论文解读] Discovering Discrete Latent Topics with Neural Variational Inference
本文提出了基于高斯神经网络(GSM、GSB、RSB)参数化的神经主题模型,以及一种无截断的循环式 stick-breaking 方法(RSB-TF),用于发现离散潜在主题,在多份语料库上实现了较强的困惑度和主题一致性。
Topic models have been widely explored as probabilistic generative models of documents. Traditional inference methods have sought closed-form derivations for updating the models, however as the expressiveness of these models grows, so does the difficulty of performing fast and accurate inference over their parameters. This paper presents alternative neural approaches to topic modelling by providing parameterisable distributions over topics which permit training by backpropagation in the framework of neural variational inference. In addition, with the help of a stick-breaking construction, we propose a recurrent network that is able to discover a notionally unbounded number of topics, analogous to Bayesian non-parametric topic models. Experimental results on the MXM Song Lyrics, 20NewsGroups and Reuters News datasets demonstrate the effectiveness and efficiency of these neural topic models.
研究动机与目标
- 激发对传统主题模型的神经替代方法,以处理非共轭性和上下文丰富的文档数据。
- 提出通过神经网络对主题分布进行参数化的方案,以实现端到端反向传播。
- 探索有限(GSM、GSB)和无限(RSB、RSB-TF)的主题模型,以建模稀疏、主题感知的文档表示。
- 在标准数据集(MXM Song Lyrics, 20NewsGroups, Reuters)上展示这些模型的效率与鲁棒性。
提出的方法
- 定义将主题分布条件化为高斯潜变量的三种神经结构:Gaussian Softmax (GSM)、Gaussian Stick Breaking (GSB) 与 Recurrent Stick Breaking (RSB)。
- 使用变分自编码器框架,配备推断网络 q(θ|d) 来近似 p(θ|d),并应用重参数化以进行梯度估计。
- 通过对单词向量和主题向量进行 softmax 来参数化 β(主题-单词分布),从而实现 Θ(主题/单词参数)和 Φ(推断参数)的端到端训练。
- 通过将 RSB 与 Topic RNN 结合,动态生成一个无限的主题序列,从而实现无界主题模型(RSB、RSB-TF)。
- 引入一种无截断的变分推断方案,当新主题在受控的接受阈值 γ 下提高证据下界时就被添加。
- 将神经主题模型与基于 LDA 的传统模型和神经文档模型进行比较,分析困惑度和主题一致性。
实验结果
研究问题
- RQ1神经网络能否有效对离散主题分布进行参数化以用于文档建模?
- RQ2在标准语料库上,GSM、GSB 和 RSB 是否在困惑度和一致性方面优于传统的 LDA 及神经基线?
- RQ3循环棒-breaking 结构是否能产生无截断、无界的主题模型,并且仍可通过反向传播进行训练?
- RQ4与显式的主题-词分布相比,隐式主题分布(文档模型变体)对泛化和一致性的影响如何?
- RQ5动态主题创建(RSB-TF)如何影响跨数据集的性能和主题多样性?
主要发现
- GSM、GSB 与 RSB 在 MXM、20NewsGroups、Reuters 数据集上的困惑度优于若干基线(LDA、NVLDA)。
- RSB-TF(无截断)在所测试数据集上取得的困惑度优于 HDP,显示了动态主题增长的好处。
- 切换到隐式主题分布能够改善泛化,并且在模型中往往比显式的主题-单词分布得到更好的困惑度。
- 在 20NewsGroups 的 50 话题和 200 话题设置中,RSB 可以超过 GSM 和 GSB,这可能是因为通过序列化的 stick-breaking 捕捉了依赖关系。
- 主题一致性(NPMI)在神经主题模型之间相当,stick-breaking 顺序中的前期主题通常显示更高的一致性。
- RSB-TF 在训练过程中动态激活主题,20NewsGroups 上的收敛通常发生在 200–300 个活跃主题之间,并且对初始主题数不敏感。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。