[论文解读] Deep Latent Dirichlet Allocation with Topic-Layer-Adaptive Stochastic Gradient Riemannian MCMC
本文提出了一种主题-层自适应随机梯度黎曼MCMC(TLASGR MCMC)方法,用于在深度离散潜在变量模型(特别是深度潜在狄利克雷分配模型,DLDA)中实现可扩展的联合推理。通过数据增强和边缘化推导出解析的费舍尔信息矩阵,TLASGR MCMC实现了层与主题特定的自适应学习率,在大规模数据集上实现了高效、非批处理的推理,性能达到当前最先进水平。
It is challenging to develop stochastic gradient based scalable inference for deep discrete latent variable models (LVMs), due to the difficulties in not only computing the gradients, but also adapting the step sizes to different latent factors and hidden layers. For the Poisson gamma belief network (PGBN), a recently proposed deep discrete LVM, we derive an alternative representation that is referred to as deep latent Dirichlet allocation (DLDA). Exploiting data augmentation and marginalization techniques, we derive a block-diagonal Fisher information matrix and its inverse for the simplex-constrained global model parameters of DLDA. Exploiting that Fisher information matrix with stochastic gradient MCMC, we present topic-layer-adaptive stochastic gradient Riemannian (TLASGR) MCMC that jointly learns simplex-constrained global parameters across all layers and topics, with topic and layer specific learning rates. State-of-the-art results are demonstrated on big data sets.
研究动机与目标
- 解决在深度离散潜在变量模型(LVMs)中使用随机梯度MCMC(SG-MCMC)进行可扩展联合推理的挑战。
- 克服在深度LVMs中为不同层和主题自适应调整学习率的困难。
- 为泊松伽马信念网络(PGBN)实现非批处理、小批量推理,该方法目前仅限于批处理Gibbs采样。
- 为深度LVMs开发一种实用的费舍尔信息矩阵(FIM)解析形式,此前被认为难以计算。
- 将一种新型的简化均值单纯形参数化方法整合进SG-MCMC,以处理单纯形约束的全局参数,而无需启发式伪似然假设。
提出的方法
- 利用数据增强和边缘化技术,推导出PGBN的另一种表示形式,命名为深度潜在狄利克雷分配模型(DLDA)。
- 为DLDA中单纯形约束的全局参数计算一个块对角结构的费舍尔信息矩阵(FIM),实现高效求逆以用于预处理。
- 在随机梯度黎曼MCMC框架中利用解析FIM,推导出主题-层自适应的步长。
- 整合Cong等人(2017)提出的快速采样过程,用于简化均值单纯形参数化,避免使用伪似然近似。
- 将TLASGR MCMC算法应用于所有层和主题的全局参数联合学习,实现层与主题特定的学习率。
- 使用由FIM逆矩阵预处理的小批量梯度,以利用二阶曲率信息,提升收敛性和稳定性。
实验结果
研究问题
- RQ1能否为像PGBN这样的深度离散潜在变量模型,推导出一种解析且实用的费舍尔信息矩阵形式?
- RQ2能否有效将随机梯度MCMC方法适配于深度LVMs,实现在多层和多主题上的联合学习?
- RQ3能否利用黎曼几何与FIM,自动实现主题与层特定的学习率自适应,而无需人工调参?
- RQ4能否成功将非伪似然的单纯形参数化方法整合进SG-MCMC,用于深度LVMs中的全局参数?
- RQ5与现有推理方法相比,所提出的TLASGR MCMC方法是否在大规模数据集上实现了最先进性能?
主要发现
- 通过数据增强和边缘化方法,为深度LDA模型(DLDA)解析推导出费舍尔信息矩阵(FIM),实现了实用的二阶推理。
- DLDA的FIM呈现出块对角结构,使得在随机梯度MCMC中可高效求逆以实现预处理。
- TLASGR MCMC算法通过利用FIM的黎曼几何特性,成功实现了主题-层自适应学习率。
- 该方法在大规模数据集上实现了最先进性能,展现出良好的可扩展性与优越的推理质量。
- 简化均值单纯形参数化被成功整合进SG-MCMC,无需伪似然假设,为单纯形约束参数提供了高效且可靠的推理方法。
- 所提方法实现了PGBN的非批处理、小批量学习,克服了现有批处理Gibbs采样器的可扩展性限制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。