Skip to main content
QUICK REVIEW

[논문 리뷰] Density Estimation in Infinite Dimensional Exponential Families

Bharath K. Sriperumbudur, Kenji Fukumizu|arXiv (Cornell University)|2013. 12. 12.
Markov Chains and Monte Carlo Methods참고 문헌 41인용 수 25
한 줄 요약

이 논문은 로그-분할 함수가 계산적으로 비가역적인 경우에 무한차원 지수족에서의 밀도 추정을 위한 새로운 방법을 제안한다. 이 방법은 피셔 산란 최소화를 통해 로그-분할 함수의 계산을 피한다. 스무스성 조건 하에서 진짜 밀도의 로그-밀도 $ \log p_0 $ 에 대해 피셔 산란 기준으로 수렴 속도 $ n^{-\min\{\frac{2}{3},\frac{2\beta+1}{2\beta+2}\}} $ 를 달성하며, $ p_0 \notin \mathcal{P} $ 인 경우에도 일致성(consistency)을 보이며, 고차원에서 커널 밀도 추정기보다 뛰어난 성능을 보인다.

ABSTRACT

In this paper, we consider an infinite dimensional exponential family, $\mathcal{P}$ of probability densities, which are parametrized by functions in a reproducing kernel Hilbert space, $H$ and show it to be quite rich in the sense that a broad class of densities on $\mathbb{R}^d$ can be approximated arbitrarily well in Kullback-Leibler (KL) divergence by elements in $\mathcal{P}$. The main goal of the paper is to estimate an unknown density, $p_0$ through an element in $\mathcal{P}$. Standard techniques like maximum likelihood estimation (MLE) or pseudo MLE (based on the method of sieves), which are based on minimizing the KL divergence between $p_0$ and $\mathcal{P}$, do not yield practically useful estimators because of their inability to efficiently handle the log-partition function. Instead, we propose an estimator, $\hat{p}_n$ based on minimizing the \emph{Fisher divergence}, $J(p_0\Vert p)$ between $p_0$ and $p\in \mathcal{P}$, which involves solving a simple finite-dimensional linear system. When $p_0\in\mathcal{P}$, we show that the proposed estimator is consistent, and provide a convergence rate of $n^{-\min\left\{\frac{2}{3},\frac{2β+1}{2β+2} ight\}}$ in Fisher divergence under the smoothness assumption that $\log p_0\in\mathcal{R}(C^β)$ for some $β\ge 0$, where $C$ is a certain Hilbert-Schmidt operator on $H$ and $\mathcal{R}(C^β)$ denotes the image of $C^β$. We also investigate the misspecified case of $p_0 otin\mathcal{P}$ and show that $J(p_0\Vert\hat{p}_n) ightarrow \inf_{p\in\mathcal{P}}J(p_0\Vert p)$ as $n ightarrow\infty$, and provide a rate for this convergence under a similar smoothness condition as above. Through numerical simulations we demonstrate that the proposed estimator outperforms the non-parametric kernel density estimator, and that the advantage with the proposed estimator grows as $d$ increases.

연구 동기 및 목표

  • 표준 최대우도추정법(MLE)이 로그-분할 함수의 비가역성으로 인해 실패하는 무한차원 지수족에서의 밀도 추정 문제를 해결하기 위해.
  • 누적모멘트 생성함수의 직접 계산을 피하는 계산적으로 실현 가능한 추정기 개발을 위해.
  • 진짜 로그-밀도에 대한 스무스성 가정 하에 이론적 일치성과 수렴 속도를 확립하기 위해.
  • 모델이 정확히 설정된 경우와 잘못 설정된 경우 모두에서의 성능을 조사하기 위해.
  • 특히 고차원 설정에서 기존의 커널 밀도 추정기보다 경험적으로 뛰어난 성능을 보여주기 위해.

제안 방법

  • 로그-분할 함수 계산을 피하기 위해 Kullback-Leibler 산란 대신 피셔 산란 $ J(p_0 \| p) $ 를 최소화하는 방법을 제안한다.
  • 스코어 매칭 원리로부터 유도된 유한차원 선형계를 푸는 방식으로 추정기 $ \hat{p}_n $ 을 구성한다.
  • 무한차원 지수족 $ \mathcal{P} $ 를 정의하기 위해 재생 커널 힐버트 공간(RKHS)을 사용하며, 커널 $ k $ 가 충분통계량을 유도한다.
  • 스무스성의 특성을 기술하기 위해 보간 공간과 힐베르트-슈미트 연산자 $ C $ 를 사용하며, $ \log p_0 \in \mathcal{R}(C^\beta) $ 를 통해 $ \log p_0 $ 의 스무스성을 기술한다.
  • 티코노프 정규화와 누적모멘트 생성함수 $ A(f) $ 의 프레셰 도함수를 적용하여 문제의 잘 정의됨(well-posedness)을 확보한다.
  • 스펙트럼 분해를 통해 $ \mathcal{R}(C^\beta) $ 와 $ \ell_2(I, \alpha^{-2\beta}) $ 의 동치성을 확립하여 수렴 속도 분석을 수행한다.

실험 결과

연구 질문

  • RQ1무한차원 지수족은 Kullback-Leibler 산란 기준으로 임의의 밀도를 임의로 잘 근사할 수 있는가?
  • RQ2표준 MLE가 로그-분할 함수의 비가역성으로 인해 실현 불가능한 경우, 계산적으로 실현 가능한 밀도 추정기를 구성할 수 있는가?
  • RQ3진짜 밀도에 대한 스무스성 가정 하에 제안된 추정기의 수렴 속도는 얼마인가?
  • RQ4진짜 밀도가 모델 클래스 외부에 있을 경우(잘못 설정된 경우) 추정기는 어떻게 행동하는가?
  • RQ5제안된 방법은 특히 고차원 설정에서 기존의 고전적 커널 밀도 추정기보다 뛰어나게 성능을 발휘하는가?

주요 결과

  • 무한차원 지수족 $ \mathcal{P} $ 는 $ \mathbb{R}^d $ 상의 임의의 밀도를 Kullback-Leibler 산란 기준으로 임의로 잘 근사할 수 있다.
  • 진짜 밀도 $ p_0 \in \mathcal{P} $ 인 경우, 피셔 산란 최소화 기반 추정기 $ \hat{p}_n $ 는 일치성을 보이며, 피셔 산란 기준으로 수렴 속도 $ n^{-\min\{\frac{2}{3},\frac{2\beta+1}{2\beta+2}\}} $ 를 달성한다.
  • 잘못 설정된 경우($ p_0 \notin \mathcal{P} $)에도 동일한 스무스성 조건 하에 피셔 산란 $ J(p_0 \| \hat{p}_n) $ 는 $ \mathcal{P} $ 에서의 하한값으로 수렴하며, 유사한 속도를 보인다.
  • 수렴 속도는 스무스성 매개변수 $ \beta $ 에 따라 달라지며, $ \log p_0 $ 가 더 스무스할수록 더 빠른 수렴 속도를 보인다.
  • 수치 시뮬레이션 결과 제안된 추정기가 커널 밀도 추정기보다 뛰어나며, 차원 수 $ d $ 가 증가할수록 그 우월성이 더욱 두드러진다.
  • 스코어 매칭과 RKHS 내 선형계 해법을 활용하여 로그-분할 함수의 직접 계산을 피하는 방법을 적용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.