[论文解读] WHAI: Weibull Hybrid Autoencoding Inference for Deep Topic Modeling
WHAI 将随机梯度 MCMC 与基于 Weibull 的变分编码器结合,用于对具有 DLDA 基解码器的深层主题模型进行可扩展、快速的样本外推断。
To train an inference network jointly with a deep generative topic model, making it both scalable to big corpora and fast in out-of-sample prediction, we develop Weibull hybrid autoencoding inference (WHAI) for deep latent Dirichlet allocation, which infers posterior samples via a hybrid of stochastic-gradient MCMC and autoencoding variational Bayes. The generative network of WHAI has a hierarchy of gamma distributions, while the inference network of WHAI is a Weibull upward-downward variational autoencoder, which integrates a deterministic-upward deep neural network, and a stochastic-downward deep generative model based on a hierarchy of Weibull distributions. The Weibull distribution can be used to well approximate a gamma distribution with an analytic Kullback-Leibler divergence, and has a simple reparameterization via the uniform noise, which help efficiently compute the gradients of the evidence lower bound with respect to the parameters of the inference network. The effectiveness and efficiency of WHAI are illustrated with experiments on big corpora.
研究动机与目标
- 推动对在大语料上也能良好工作的深层多层主题模型的可扩展推断。
- 开发一个推断网络,能够高效近似稀疏、非负的潜在文档表征的后验。
- 将随机梯度 MCMC 与自编码变分贝叶斯的混合方法整合,以同时推断全局和局部参数。
- 利用基于 Weibull 的编码器,近似 gamma 后验,具有解析 KL 和简单的重参数化。
- 在大规模文本数据集上展示相较于竞争推断策略的性能和速度改进。
提出的方法
- 使用 DLDA(一个深层泊松/伽马主题模型)作为生成解码器,以捕捉分层文档表征。
- 设计一个自上而下的推断网络(WUDVE),其中自底向上的神经网络为随机向下生成模型提供输入。
- 在编码器中用 Weibull 分布近似 gamma 条件,以实现解析的 KL 项和可重参数化采样。
- 使用混合推断算法,用 TLASGR-MCMC 更新全局参数,用 Weibull 编码器更新局部参数,从而实现快速而准确的后验推断。
- 比较包括 GHAI 与 WAI 在内的变体,以分离随机向下路径与分布选择的影响。
实验结果
研究问题
- RQ1WHAI 是否在样本外预测和困惑度上优于现有的深层主题模型和变分自编码器?
- RQ2与吉布斯采样和 TLASGR-MCMC 相比,混合 MCMC/VAE 框架在大语料上的可扩展性和速度(训练与测试)表现如何?
- RQ3在推断网络中使用 Weibull(相对 gamma)对后验近似和训练效率的影响?
- RQ4WHAI 中的上下文信息传播是否相较传统 VAE 或独立/不完整的自上而下连接带来实际收益?
- RQ5DHLA(WHAI)变体(有/无 随机向下路径)如何影响性能?
主要发现
- WHAI 在困惑度和测试时效性方面优于最先进的基于 DLDA 的方法。
- 基于 Weibull 的编码器以解析的 KL 和易参数化采样,近似 gamma 后验,便于高效梯度计算。
- 混合 MCMC/VAE 方法在性能上与吉布斯采样相当或更优,同时为大语料提供可扩展的小批量训练。
- 实验中,WHAI及其变体优于非自上而下的 counterparts,突出随机向下信息流的好处。
- 使用更深结构的 DLDA-WHAI 相较于浅层配置显示出更好的性能,证明了有效的分层主题学习。
- 与 AVITM 与 DPFA 相比,使用深度生成 DLDA 解码器的模型在保持快速样本外推断的同时, held-out 困惑度 一致更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。