[论文解读] Density Estimation in Infinite Dimensional Exponential Families
该论文提出了一种在无限维指数族中进行密度估计的新方法,通过最小化Fisher散度来避免计算上不可行的对数分区函数。在 $ \log p_0 $ 具有光滑性条件时,该估计器在Fisher散度下的收敛速率为 $ n^{-\min\{\frac{2}{3},\frac{2\beta+1}{2\beta+2}\}} $,即使 $ p_0 \notin \mathcal{P} $ 时也保持一致,且在高维情形下优于核密度估计器。
In this paper, we consider an infinite dimensional exponential family, $\mathcal{P}$ of probability densities, which are parametrized by functions in a reproducing kernel Hilbert space, $H$ and show it to be quite rich in the sense that a broad class of densities on $\mathbb{R}^d$ can be approximated arbitrarily well in Kullback-Leibler (KL) divergence by elements in $\mathcal{P}$. The main goal of the paper is to estimate an unknown density, $p_0$ through an element in $\mathcal{P}$. Standard techniques like maximum likelihood estimation (MLE) or pseudo MLE (based on the method of sieves), which are based on minimizing the KL divergence between $p_0$ and $\mathcal{P}$, do not yield practically useful estimators because of their inability to efficiently handle the log-partition function. Instead, we propose an estimator, $\hat{p}_n$ based on minimizing the \emph{Fisher divergence}, $J(p_0\Vert p)$ between $p_0$ and $p\in \mathcal{P}$, which involves solving a simple finite-dimensional linear system. When $p_0\in\mathcal{P}$, we show that the proposed estimator is consistent, and provide a convergence rate of $n^{-\min\left\{\frac{2}{3},\frac{2β+1}{2β+2} ight\}}$ in Fisher divergence under the smoothness assumption that $\log p_0\in\mathcal{R}(C^β)$ for some $β\ge 0$, where $C$ is a certain Hilbert-Schmidt operator on $H$ and $\mathcal{R}(C^β)$ denotes the image of $C^β$. We also investigate the misspecified case of $p_0 otin\mathcal{P}$ and show that $J(p_0\Vert\hat{p}_n) ightarrow \inf_{p\in\mathcal{P}}J(p_0\Vert p)$ as $n ightarrow\infty$, and provide a rate for this convergence under a similar smoothness condition as above. Through numerical simulations we demonstrate that the proposed estimator outperforms the non-parametric kernel density estimator, and that the advantage with the proposed estimator grows as $d$ increases.
研究动机与目标
- 解决在标准最大似然估计(MLE)因对数分区函数计算不可行而失效的无限维指数族中的密度估计挑战。
- 开发一种计算上可行的估计器,避免直接计算累积量生成函数。
- 在真实对数密度具有光滑性假设的条件下,建立理论一致性和收敛速率。
- 研究在正确设定和设定错误情形下的性能表现。
- 在高维设置下,展示所提方法在经验性能上优于经典核密度估计器。
提出的方法
- 提出最小化Fisher散度 $ J(p_0 \| p) $ 而非Kullback-Leibler散度,以避免对数分区函数的计算。
- 通过求解由得分匹配原理导出的有限维线性系统来构造估计器 $ \hat{p}_n $。
- 使用再生核希尔伯特空间(RKHS)来定义无限维指数族 $ \mathcal{P} $,其中核 $ k $ 引入充分统计量。
- 利用插值空间和希尔伯特-施密特算子 $ C $,通过 $ \log p_0 \in \mathcal{R}(C^\beta) $ 来刻画 $ \log p_0 $ 的光滑性。
- 应用Tikhonov正则化和累积量生成函数 $ A(f) $ 的Fréchet导数,以确保问题的适定性。
- 通过谱分解建立 $ \mathcal{R}(C^\beta) $ 与 $ \ell_2(I, \alpha^{-2\beta}) $ 的等价性,用于收敛速率分析。
实验结果
研究问题
- RQ1无限维指数族能否在KL散度下任意逼近任意密度?
- RQ2当标准MLE因对数分区函数不可计算而不可行时,能否构造出计算上可行的密度估计器?
- RQ3在真实密度具有光滑性假设的条件下,所提估计器的收敛速率能达到多快?
- RQ4当真实密度位于模型类之外(即设定错误情形)时,估计器的行为如何?
- RQ5所提方法是否在高维情形下优于经典核密度估计器?
主要发现
- 无限维指数族 $ \mathcal{P} $ 足够丰富,可在Kullback-Leibler散度下任意逼近 $ \mathbb{R}^d $ 上的任意密度。
- 基于Fisher散度最小化的所提估计器 $ \hat{p}_n $ 在 $ p_0 \in \mathcal{P} $ 时是一致的,且在Fisher散度下的收敛速率为 $ n^{-\min\{\frac{2}{3},\frac{2\beta+1}{2\beta+2}\}} $。
- 在设定错误情形($ p_0 \notin \mathcal{P} $)下,Fisher散度 $ J(p_0 \| \hat{p}_n) $ 在相同光滑性条件下以相近速率收敛至 $ \mathcal{P} $ 上的下确界。
- 收敛速率依赖于光滑性参数 $ \beta $,$ \log p_0 $ 越光滑,收敛越快。
- 数值模拟表明,所提估计器优于核密度估计器,且随着维度 $ d $ 增大,优势愈加明显。
- 该方法通过利用得分匹配和RKHS中的线性系统求解,避免了对数分区函数的直接计算。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。