[论文解读] Large-scale Log-determinant Computation through Stochastic Chebyshev Expansions
本文提出了一种线性时间的随机算法,通过Hutchinson方法结合切比雪夫多项式展开,利用随机迹估计来近似大规模正定矩阵和一般非奇异矩阵的对数行列式。该方法在远少于Cholesky分解所需时间的量级内实现了高精度近似,使得对包含数千万个变量的矩阵进行对数行列式计算成为可能,并且误差界限严格依赖于条件数和采样参数。
Logarithms of determinants of large positive definite matrices appear ubiquitously in machine learning applications including Gaussian graphical and Gaussian process models, partition functions of discrete graphical models, minimum-volume ellipsoids, metric learning and kernel learning. Log-determinant computation involves the Cholesky decomposition at the cost cubic in the number of variables, i.e., the matrix dimension, which makes it prohibitive for large-scale applications. We propose a linear-time randomized algorithm to approximate log-determinants for very large-scale positive definite and general non-singular matrices using a stochastic trace approximation, called the Hutchinson method, coupled with Chebyshev polynomial expansions that both rely on efficient matrix-vector multiplications. We establish rigorous additive and multiplicative approximation error bounds depending on the condition number of the input matrix. In our experiments, the proposed algorithm can provide very high accuracy solutions at orders of magnitude faster time than the Cholesky decomposition and Schur completion, and enables us to compute log-determinants of matrices involving tens of millions of variables.
研究动机与目标
- 解决在大规模机器学习应用中,通过Cholesky分解精确计算对数行列式在计算上不可行的问题。
- 开发一种可扩展、高精度且可并行化的高维设置下对数行列式近似算法。
- 建立依赖于矩阵条件数、采样规模和多项式次数的严格加法和乘法误差界限。
- 将该方法扩展至一般非奇异矩阵,以计算对数行列式的绝对值。
- 在包含最多2500万个变量的真实和合成数据集上,展示算法的实际可扩展性和精度。
提出的方法
- 该方法使用切比雪夫多项式展开,将对数行列式近似为矩阵幂级数的迹。
- 采用随机迹估计器(Hutchinson方法)通过随机向量和高效的矩阵-向量乘法来估计迹。
- 该算法依赖于能够高效计算矩阵-向量乘积,从而在非零元素数量上实现线性时间复杂度。
- 对于非对称或非正定矩阵,该方法计算矩阵对称部分的对数行列式,或通过适当的变换使用绝对值。
- 由于依赖于与随机向量独立的矩阵-向量乘积,该方法具有可并行性。
- 误差界限基于矩阵的条件数、多项式次数和随机样本数量推导得出。
实验结果
研究问题
- RQ1随机算法是否能在大规模矩阵上以线性时间实现高精度的对数行列式近似?
- RQ2条件数和采样参数如何影响所提方法中的近似误差?
- RQ3该方法能否在保持理论误差保证的前提下扩展至一般非奇异矩阵?
- RQ4与基于泰勒级数的替代方法相比,基于切比雪夫的近似在精度和收敛性方面表现如何?
- RQ5该算法是否能扩展到包含数千万个变量的矩阵,同时保持亚秒级运行时间?
主要发现
- 所提算法在单台普通计算机上仅需几分钟即可计算出最多2500万个变量的矩阵的对数行列式,远快于Cholesky分解。
- 对于条件数为O(1)的矩阵,该算法对任意常数ε > 0均能提供ε-近似保证(加法或乘法形式),且时间复杂度为线性。
- 在大规模稀疏矩阵上,该方法与精确Cholesky分解相比,对数行列式近似精度达到99.9%。
- 实验表明,即使使用1000个样本,基于切比雪夫的方法在精度上也优于基于泰勒级数的随机迹估计器。
- 该算法成功实现了在5000×5000高斯马尔可夫随机场(2500万个变量)中的最大似然估计,正确识别出隐藏参数ρ = -0.22。
- 该方法展现出强大的可扩展性和可并行性,通过分布式系统可进一步扩展至更大规模的矩阵。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。