[论文解读] Distance Dependent Chinese Restaurant Processes
本文提出了距离依赖的中国餐馆过程(ddCRP),一种非交换性的贝叶斯非参数先验,用于建模基于成对距离的数据点之间的依赖关系。通过将CRP重新参数化为基于顾客到顾客的分配而非桌子分配,ddCRP在潜在和完全观测的混合模型中实现了更快混合的吉布斯采样,尤其在序列和空间数据上表现更优。
We develop the distance dependent Chinese restaurant process (CRP), a flexible class of distributions over partitions that allows for non-exchangeability. This class can be used to model many kinds of dependencies between data in infinite clustering models, including dependencies across time or space. We examine the properties of the distance dependent CRP, discuss its connections to Bayesian nonparametric mixture models, and derive a Gibbs sampler for both observed and mixture settings. We study its performance with three text corpora. We show that relaxing the assumption of exchangeability with distance dependent CRPs can provide a better fit to sequential data. We also show its alternative formulation of the traditional CRP leads to a faster-mixing Gibbs sampling algorithm than the one based on the original formulation.
研究动机与目标
- 为解决传统中国餐馆过程(CRPs)在建模时间序列或空间数据等非交换性数据时的局限性。
- 开发一种灵活的距离依赖型分区先验,以纳入数据点之间的结构依赖关系。
- 推导一种基于顾客分配表示的通用吉布斯采样算法,以实现高效的后验推断。
- 证明ddCRP公式相比标准狄利克雷过程混合模型的聚合吉布斯采样器,能实现更快混合的马尔可夫链蒙特卡洛(MCMC)采样器。
- 通过放松交换性假设,展示ddCRP在拟合序列和网络结构化数据方面具有经验上的改进。
提出的方法
- 提出一种基于顾客分配的CRP表示方法,其中每个数据点(顾客)以依赖于其与另一数据点之间距离的概率被分配到该数据点。
- 使用基于成对距离的衰减函数定义距离依赖的顾客分配概率,当衰减函数为常数时,该方法退化为标准CRP的特例。
- 推导一种吉布斯采样器,通过迭代重采样每个顾客的分配,利用这些分配更新聚类成员关系。
- 从顾客分配中重构桌子分配(分区),从而实现对潜在聚类结构的推断。
- 将该方法应用于文本语料库,采用CRP混合模型,其中基测度被选择为共轭以实现高效计算。
- 采用一种计算策略,即每次吉布斯步骤评估通过顾客分配添加/移除一组点时对似然的变化,保持与标准聚合采样器相同的计算复杂度。
实验结果
研究问题
- RQ1能否构建一种非交换性分区先验,以纳入数据点之间的时间、空间或网络依赖关系?
- RQ2ddCRP中的顾客分配表示如何相比传统的基于桌子的CRP表示,实现更高效的后验推断?
- RQ3当应用于序列或结构化数据时,ddCRP公式是否能实现MCMC采样器的更快混合?
- RQ4ddCRP是否能作为标准CRP的特例被恢复,当衰减函数为恒等函数时,其后验分布是否与原始模型保持一致?
- RQ5在真实世界文本语料上,ddCRP基吉布斯采样器在收敛性和混合性方面与标准聚合吉布斯采样器相比表现如何?
主要发现
- 距离依赖的CRP能有效建模基于时间、空间或网络结构的数据依赖关系,为非交换性数据提供了更现实的先验。
- 当衰减函数为常数时,ddCRP公式能恢复传统CRP,确保与现有模型的一致性。
- 基于顾客分配的吉布斯采样器允许在状态空间中进行更大范围的移动——一次操作可改变多个点的聚类分配,从而实现更快混合。
- 在《科学》和《纽约时报》文本语料上的实证结果表明,ddCRP基采样器收敛更快,且更不易陷入局部最优。
- 尽管每次迭代的计算复杂度相同,ddCRP采样器由于能够在状态空间中执行更大、更有效的移动,从而实现更好的后验探索。
- ddCRP对传统CRP混合模型的表示,可实现更快混合的吉布斯采样器,为狄利克雷过程混合模型提供了实际的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。