[论文解读] Sliced Score Matching: A Scalable Approach to Density and Score Estimation
简要:引入 sliced score matching (SSM),一种可扩展的分数匹配变体,通过将高维分数投影到随机方向来避免昂贵的 Hessian 计算,从而实现深度未归一化模型和高维数据。
Score matching is a popular method for estimating unnormalized statistical models. However, it has been so far limited to simple, shallow models or low-dimensional data, due to the difficulty of computing the Hessian of log-density functions. We show this difficulty can be mitigated by projecting the scores onto random vectors before comparing them. This objective, called sliced score matching, only involves Hessian-vector products, which can be easily implemented using reverse-mode automatic differentiation. Therefore, sliced score matching is amenable to more complex models and higher dimensional data compared to score matching. Theoretically, we prove the consistency and asymptotic normality of sliced score matching estimators. Moreover, we demonstrate that sliced score matching can be used to learn deep score estimators for implicit distributions. In our experiments, we show sliced score matching can learn deep energy-based models effectively, and can produce accurate score estimates for applications such as variational inference with implicit distributions and training Wasserstein Auto-Encoders.
研究动机与目标
- 激发并解决在未归一化模型的得分匹配中基于 Hessian 的迹计算的困难。
- 提出 sliced score matching 以在高维中实现可扩展的密度与分数估计。
- 为 SSM 估计量建立一致性与渐进正态性的理论保证。
- 展示 SSM 在学习深度能量基模型和估计隐分布的分数方面的适用性。
- 探索与相关方法及实际变体(如方差降低) 的联系。
提出的方法
- 通过将分数投影到随机方向并在这些投影上进行匹配来定义 sliced score matching 目标。
- 证明 sliced 目标与包含 Hessian-向量乘积的可处理形式之间的等价性(常数项除外),从而实现高效计算。
- 使用每个数据点 M 个投影向量提供 sliced 目标的无偏估计,并给出方差降低变体(SSM-VR)。
- 使用 Hutchinson 的技巧直觉将该方法与迹估计联系起来并降低方差。
- 将该方法扩展到数据生成过程的分数估计,通过训练分数模型 h(x;θ) 并最小化 sliced 目标。
- 讨论在现代自动微分框架(如 TensorFlow、PyTorch)中的实现优势。
实验结果
研究问题
- RQ1sliced score matching 是否能在高维未归一化模型中提供一致且渐进正态的参数估计?
- RQ2SSM 是否对深度模型和高维数据具备可扩展性,同时在估计准确性方面与现有分数匹配变体相比具有竞争力?
- RQ3sliced score matching 是否可用于估计隐式分布的分数,并支持如具有隐式编码器的变分自编码器(VAE)和 Wasserstein 自编码器(WAE)的应用?
- RQ4SSM 如何与其他可扩展的分数估计方法(如对比估计 NCE、Hutchinson 的技巧、基于核的估计器)相关并有何不同?
主要发现
- 在标准正则性条件下,SSM 产生一致且渐进正态的估计量。
- 使用较少数量的投影向量 M(通常 M=1)在方差和计算成本之间提供有利的权衡。
- SSM-VR 通过降低方差提升经验性能,且可能优于基线的可扩展分数匹配变体。
- SSM 通过 Hessian-向量乘积而非完整 Hessian 迹实现可控计算,从而使深度能量基模型的训练成为可能。
- SSM 可用于获得隐式分布所需的准确分数估计,以用于变分推断以及训练 Wasserstein 自编码器。
- 在深度核指数族和 NICE 流模型的密度估计实验中,SSM 具有竞争力,且往往比现有分数匹配方法更具可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。