QUICK REVIEW

[논문 리뷰] Empirical estimation of entropy functionals with confidence

Kumar Sricharan, Raviv Raich|arXiv (Cornell University)|2010. 12. 19.

Machine Learning and Algorithms참고 문헌 16인용 수 26

한 줄 요약

이 논문은 데이터 분할과 경계 보정을 통해 편향과 분산을 감소시켜 비선형 확률 밀도 기능량, 예를 들어 샤논 엔트로피와 레니 엔트로피와 같은 기능량을 위한 이원형 플러그인(BPI) k-최근접 이웃(k-NN) 추정기들을 도입한다. 이 방법은 일반적인 매끄러운 기능량에 대해 O(T^{-4/(2+d)})의 최적 평균제곱오차(MSE) 수렴률과 엔트로피에 대해 O(((log T)^6 / T)^{4/d})의 수렴률을 달성하며, 중심극한정리에 기반한 날카운 통계적 신뢰구간을 유도한다.

ABSTRACT

This paper introduces a class of k-nearest neighbor ($k$-NN) estimators called bipartite plug-in (BPI) estimators for estimating integrals of non-linear functions of a probability density, such as Shannon entropy and Rényi entropy. The density is assumed to be smooth, have bounded support, and be uniformly bounded from below on this set. Unlike previous $k$-NN estimators of non-linear density functionals, the proposed estimator uses data-splitting and boundary correction to achieve lower mean square error. Specifically, we assume that $T$ i.i.d. samples ${X}_i \in \mathbb{R}^d$ from the density are split into two pieces of cardinality $M$ and $N$ respectively, with $M$ samples used for computing a k-nearest-neighbor density estimate and the remaining $N$ samples used for empirical estimation of the integral of the density functional. By studying the statistical properties of k-NN balls, explicit rates for the bias and variance of the BPI estimator are derived in terms of the sample size, the dimension of the samples and the underlying probability distribution. Based on these results, it is possible to specify optimal choice of tuning parameters $M/T$, $k$ for maximizing the rate of decrease of the mean square error (MSE). The resultant optimized BPI estimator converges faster and achieves lower mean squared error than previous $k$-NN entropy estimators. In addition, a central limit theorem is established for the BPI estimator that allows us to specify tight asymptotic confidence intervals.

연구 동기 및 목표

비선형 확률 밀도 기능량, 예를 들어 엔트로피와 같은 기능량을 위한 k-NN 추정기를 개발하여 통계적 효율성을 향상시키는 것.
k-NN 밀도 추정에서 데이터 분할과 경계 보정을 도입하여 엔트로피 추정의 편향과 분산을 감소시키는 것.
추정기의 평균제곱오차(MSE)를 최소화하는 최적의 튜닝 파rameter(k 및 M/T)를 도출하는 것.
BPI 추정기의 중심극한정리(CLT)를 확립하여 날카운 점근적 신뢰구간을 구성할 수 있도록 하는 것.
지지집합의 경계를 사전에 알지 못해도, 알려진 지지경계를 가진 오라클 추정기와 동일한 수렴률을 달성하는 것.

제안 방법

BPI 추정기는 T개의 i.i.d. 표본을 두 개의 서로소 집합으로 분할한다: M개의 표본은 k-NN 밀도 추정에, N개의 표본은 기능량의 경험적 평균에 사용된다.
M집합에서 k-NN 구를 사용해 밀도를 추정하고, 추정된 값을 기능량 g(f(x),x)에 플러그인한 후, N집합에서의 평균을 통해 ∫g(f(x),x)f(x)dx를 추정한다.
경계 보정은 k-NN 이웃의 기하학적 성질을 통해 자동으로 통합되어 지지집합의 사전 지식이 필요 없어진다.
근접 이웃의 기하학적 성질과 첨도 부등식을 사용하여 편향과 분산 등의 통계적 성질을 분석한다.
MSE를 최소화하는 방식으로 최적의 튜닝 파rameter를 도출하며, 일반 기능량에 대해서는 k를 O(T^{-2/(2+d)})로 선택하고, 엔트로피에 대해서는 더 빠른 수렴률을 달성하기 위해 조정한다.
BPI 추정기의 중심극한정리를 확립하여 점근적으로 타당한 신뢰구간을 구성할 수 있도록 한다.

실험 결과

연구 질문

RQ1데이터 분할과 경계 보정을 통해 k-NN 추정기의 엔트로피 기능량 추정 성능을 향상시켜 편향과 분산을 감소시킬 수 있는가?
RQ2BPI 추정기의 평균제곱오차(MSE)를 최소화하는 데 최적의 k와 M/T 값은 무엇인가?
RQ3BPI 추정기는 지지경계를 알고 있는 오라클 추정기와 동일한 수렴률을 달성할 수 있는가?
RQ4BPI 추정기의 점근적 분포는 무엇이며, 이를 통해 날카운 신뢰구간을 구성할 수 있는가?
RQ5샤논 엔트로피와 레니 엔트로피와 같은 특정 기능량에 대해, 일반 기능량보다 더 빠른 수렴률을 달성할 수 있는가?

주요 결과

일반적인 매끄러운 기능량 g에 대해 BPI 추정기는 차원 d와 표본 크기 T에 대해 O(T^{-4/(2+d)})의 최적 MSE 수렴률을 달성한다.
샤논 엔트로피와 레니 엔트로피에 대해서는 편향 보정을 통해 O(((log T)^6 / T)^{4/d})의 더 빠른 MSE 수렴률을 달성한다.
BPI 추정기는 지지집합 경계를 사전에 알지 못해도, 지지경계를 알고 있는 오라클 추정기와 동일한 MSE 수렴률을 달성한다.
BPI 추정기의 중심극한정리가 확립되어 정규근사에 기반한 날카운 점근적 신뢰구간을 도출할 수 있다.
최적의 k는 O(T^{-2/(2+d)})이며, MSE를 최소화하기 위한 최적의 분할 비율 M/T도 유도되었으며, 이는 이전의 k-NN 추정기들보다 향상된 성능을 제공한다.
편향과 분산에 대한 이론적 경계가 T, d 및 기본 분포에 대해 명시적으로 유도되었으며, 이는 추정기의 정밀한 튜닝을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.