QUICK REVIEW

[논문 리뷰] Density Estimation for Shift-Invariant Multidimensional Distributions

Anindya De, Philip M. Long|arXiv (Cornell University)|2018. 11. 09.

Machine Learning and Algorithms참고 문헌 46인용 수 2

한 줄 요약

이 논문은 다차원 밀도 추정에 대해 새로운 부드러움 조건인 이동 불변성(Shift-invariance)을 도입하여 절편 불연속성이 있는 분포의 효율적 학습을 가능하게 한다. 이 조건을 바탕으로, 지수 꼬리 감쇠를 갖는 d차원 이동 불변 분포를 Õd(1/ε^{d+2})개의 샘플과 Õd(1/ε^{2d+2})의 시간으로 학습하는 효율적인 알고리즘을 제안하며, 총 변동 오차 ε을 달성한다. 또한 Huber의 오염 모델로의 확장도 가능하며, 이 경우 오차는 O(ε)이 된다. 결과적으로 이론적 하한선 Ω(1/ε^d)에 매우 가까운 성능을 달성한다.

ABSTRACT

We study density estimation for classes of shift-invariant distributions over R^d. A multidimensional distribution is "shift-invariant" if, roughly speaking, it is close in total variation distance to a small shift of it in any direction. Shift-invariance relaxes smoothness assumptions commonly used in non-parametric density estimation to allow jump discontinuities. The different classes of distributions that we consider correspond to different rates of tail decay. For each such class we give an efficient algorithm that learns any distribution in the class from independent samples with respect to total variation distance. As a special case of our general result, we show that d-dimensional shift-invariant distributions which satisfy an exponential tail bound can be learned to total variation distance error epsilon using O~_d(1/ epsilon^{d+2}) examples and O~_d(1/ epsilon^{2d+2}) time. This implies that, for constant d, multivariate log-concave distributions can be learned in O~_d(1/epsilon^{2d+2}) time using O~_d(1/epsilon^{d+2}) samples, answering a question of [Diakonikolas et al., 2016]. All of our results extend to a model of noise-tolerant density estimation using Huber's contamination model, in which the target distribution to be learned is a (1-epsilon,epsilon) mixture of some unknown distribution in the class with some other arbitrary and unknown distribution, and the learning algorithm must output a hypothesis distribution with total variation distance error O(epsilon) from the target distribution. We show that our general results are close to best possible by proving a simple Omega (1/epsilon^d) information-theoretic lower bound on sample complexity even for learning bounded distributions that are shift-invariant.

연구 동기 및 목표

이동 불변성이라는 새로운 부드러움 조건을 제안하여 소볼레프 공간 및 베소프 공간을 일반화하고, 다차원 밀도에 절편 불연속성을 허용한다.
제어된 꼬리 감쇠를 갖는 이동 불변 분포를 위한 효율적인 학습 알고리즘을 설계하여, 매개변수적 모델을 초월한 실용적 밀도 추정을 가능하게 한다.
총 변동 거리 기반으로 이러한 분포를 학습할 때의 샘플 및 시간 복잡도의 날카로운 하한을 확립한다.
Huber의 오염 모델에서 노이즈에 강건한 학습으로의 프레임워크 확장을 시도하며, 여기서 목표 분포는 클래스 내 분포와 임의의 이상치 분포의 (1−ε, ε)-혼합이다.
제안된 복잡도가 정보 이론적 하한선에 매우 가까운지 증명하기 위해, Ω(1/ε^d)의 정보 이론적 하한선을 샘플 복잡도에 대해 확립한다.

제안 방법

밀도 f가 방향 v에 따른 소규모 이동에서 스케일 κ에서의 평균 변화율을 캡처하는 정량적 이동 불변성 측정치 SI(f, v, κ)를 도입한다.
모든 κ > 0에 대해 SI(f, κ) ≤ c를 만족하고 꼬리 감쇠가 비증가 함수 g에 의해 제어되는 d차원 밀도의 클래스 CSI(c, d, g)를 정의한다.
이동 불변성을 활용하여 편향과 분산을 제어하는 커널 기반 스무딩을 통해 가설 분포를 구성한다.
영역을 단위 큐브로 이산화하고, 조각별 상수 밀도의 가족을 구성하여 샘플 복잡도의 하한을 유도한다.
정보 이론적 도구, 특히 칼리브라-라이블러 발산과 총 변동 거리 등을 적용하여, 철저히 구성된 밀도 가족에 대한 패킹 추론을 통해 하한을 유도한다.
Huber의 오염 모델로의 확장을 위해, 동일한 알고리즘이 목표 분포가 클래스 내 분포와 임의의 이상치 분포의 (1−ε, ε)-혼합일 경우에도 O(ε)의 총 변동 오차를 달성함을 보여준다.

실험 결과

연구 질문

RQ1이동 불변성은 절편 불연속성이 있는 분포에 대해 효율적 밀도 추정을 가능하게 하며, 同시에 경량 꼬리 행동을 포괄할 수 있는 부드러움 조건으로 사용될 수 있는가?
RQ2지수 꼬리 감쇠를 갖는 d차원 이동 불변 분포를 학습할 때 최적의 샘플 및 시간 복잡도는 무엇인가?
RQ3학습 프레임워크는 Huber의 오염 모델과 같이 데이터에 악성 오염이 존재하는 경우에도 내재적으로 강건하게 확장될 수 있는가?
RQ4제안된 샘플 복잡도는 이 분포 클래스에 대한 정보 이론적 한계에 얼마나 가까운가?
RQ5이동 불변성 조건은 등방성 로그-볼록 및 다변량 정규 분포와 같은 중요한 분포를 포함할 수 있을 정도로 충분히 일반적인가?

주요 결과

논문은 d차원 이동 불변 분포 중 지수 꼬리 감쇠를 갖는 분포가 총 변동 거리 오차 ε로 Õd(1/ε^{d+2})개의 샘플과 Õd(1/ε^{2d+2})의 시간으로 학습될 수 있음을 입증한다. 이는 상수 d에 대해 효율적이다.
특수 케이스로, 다변량 로그-볼록 분포는 Õd(1/ε^{2d+2})의 시간에 Õd(1/ε^{d+2})개의 샘플로 학습될 수 있으며, 이는 DKS16b에서 제기된 열린 문제를 해결한다.
프레임워크는 Huber의 오염 모델에 대해 강건하다: 알고리즘은 목표 분포가 클래스 내 분포와 임의의 이상치 분포의 (1−ε, ε)-혼합일 경우에도 O(ε)의 총 변동 오차를 달성한다.
제안된 샘플 복잡도는 거의 최적이다. 논문은 유계 이동 불변 분포를 학습할 때 샘플 복잡도에 대해 Ω(1/ε^d)의 정보 이론적 하한선을 증명한다.
CSI(c, d, g) 클래스는 등방성 로그-볼록 및 다변량 정규 분포와 같은 핵심 분포를 포함할 수 있을 정도로 넓은 범위를 가지며, 同시에 효율적 학습이 가능하다.
하한선 구성은 영역을 이산화한 조각별 상수 밀도의 가족을 사용하며, 쌍별 총 변동 거리는 Ω(ε), KL 발산은 O(1)이 되도록 구성되어, Ω((1/ε)^d)의 샘플 복잡도 하한선을 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.