Skip to main content
QUICK REVIEW

[论文解读] Deep Exponential Families

Rajesh Ranganath, Linpeng Tang|arXiv (Cornell University)|Nov 10, 2014
Cellular Automata and Applications参考文献 31被引用 24
一句话总结

该论文提出了深度指数族模型(DEFs),一种将指数族扩展至深度架构的层次化概率模型,通过堆叠的潜在变量层实现数据的结构化、组合式表征。DEFs通过学习层次化主题结构,在文本建模与协同过滤任务中提升了预测性能与可解释性,在困惑度与排序指标上优于当前最先进模型。

ABSTRACT

We describe extit{deep exponential families} (DEFs), a class of latent variable models that are inspired by the hidden structures used in deep neural networks. DEFs capture a hierarchy of dependencies between latent variables, and are easily generalized to many settings through exponential families. We perform inference using recent "black box" variational inference techniques. We then evaluate various DEFs on text and combine multiple DEFs into a model for pairwise recommendation data. In an extensive study, we show that going beyond one layer improves predictions for DEFs. We demonstrate that DEFs find interesting exploratory structure in large data sets, and give better predictive performance than state-of-the-art models.

研究动机与目标

  • 开发一种灵活的深度概率模型,以捕捉潜在变量中的层次依赖关系,受深度神经网络启发。
  • 将指数族分布推广至多层潜在变量,以更好地建模复杂数据结构。
  • 利用黑箱变分推断技术实现可扩展的推断,适用于大规模数据集。
  • 在真实世界问题(如文档建模与协同过滤)上评估DEFs,验证其在预测性能与可解释性方面的改进。
  • 探索深度架构在概率分解与表征学习中超越单层模型的实用性。

提出的方法

  • DEFs通过一系列潜在层对观测数据进行建模,其中每一层的变量均从指数族分布中抽取,其自然参数由前一层与可学习权重的内积决定。
  • 模型使用指数族的自然参数与 sufficient 统计量,通过灵活的观测模型支持多种数据类型(如泊松分布、伯努利分布、高斯分布等)。
  • 推断通过黑箱变分推断实现,可在无需模型特定推导的情况下高效训练大规模数据集。
  • 双DEF架构将两个独立的DEF组合使用——一个用于用户,一个用于项目——其交互可能性通过其底层表征内积的泊松分布建模。
  • 通过在不同DEF变体(如伽马分布、S型函数、泊松分布DEF)中调整层大小(100, 30, 15)及权重的先验分布,对超参数进行调优。
  • 模型支持对潜在变量选择多种指数族分布(如伽马分布用于非负矩阵分解,伯努利分布用于S型信念网络),从而具备广泛适用性。

实验结果

研究问题

  • RQ1与浅层模型相比,指数族分布的深度架构是否能提升文本建模中的预测性能?
  • RQ2更深层次的DEFs是否能在大规模文本语料中揭示更具可解释性与语义意义的层次结构?
  • RQ3不同潜在变量分布选择(如伽马分布、伯努利分布、高斯分布)如何影响模型性能与训练稳定性?
  • RQ4DEFs能否有效组合为更复杂模型(如用于协同过滤的双DEF模型),并优于标准矩阵分解方法?
  • RQ5在层次结构中增加深度是否能提升泛化能力,特别是在推荐系统中低活跃度用户上的表现?

主要发现

  • 在20 Newsgroups与NYT文本数据集上,DEFs均优于基线模型,更深的架构(两层与三层)在保留困惑度上优于浅层模型。
  • 稀疏伽马DEF与伽马分布权重的泊松DEF在所有配置中持续优于正态分布权重的模型,尤其在深层架构中表现更优。
  • 使用正态权重的S型DEF在深层配置中训练困难且性能较差,表明其对先验与初始化选择高度敏感。
  • 双DEF模型在Netflix与ArXiv点击/评分数据上均提升了预测性能,两层模型优于浅层基线与单层DEF。
  • 在ArXiv数据集上,更深的双DEF在低活跃度用户上的排序性能(NDCG)显著更优,表明其在数据稀疏情况下的更好泛化能力。
  • 模型在NYT语料中发现了可解释的层次结构——如政府三权分立(司法、立法、行政)——展示了其揭示有意义语义分组的能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。