QUICK REVIEW

[논문 리뷰] Optimal Data-Based Binning for Histograms

Kevin H. Knuth|arXiv (Cornell University)|2006. 05. 23.

Neural Networks and Applications참고 문헌 22인용 수 135

한 줄 요약

이 논문은 데이터에 기반하여 사후 확률을 최대화함으로써 히스토GRAM의 최적의 박스 수를 결정하는 베이지안 방법을 제안한다. 다항분포 우도와 비정보성 사전분포를 사용하여 표본 크기와 분포 형태에 적응하는 데이터 기반 규칙를 유도하며, 스코트와 프리드먼-다이아코니스의 고전적 규칙보다 다모달 설정에서 더 우수한 성능을 보인다.

ABSTRACT

Histograms are convenient non-parametric density estimators, which continue to be used ubiquitously. Summary quantities estimated from histogram-based probability density models depend on the choice of the number of bins. We introduce a straightforward data-based method of determining the optimal number of bins in a uniform bin-width histogram. By assigning a multinomial likelihood and a non-informative prior, we derive the posterior probability for the number of bins in a piecewise-constant density model given the data. In addition, we estimate the mean and standard deviations of the resulting bin heights, examine the effects of small sample sizes and digitized data, and demonstrate the application to multi-dimensional histograms.

연구 동기 및 목표

편향 없는 원칙적이고 데이터 기반의 히스토GRAM 박스 수 선택 방법이 부족한 문제를 해결하기 위해.
사후 확률을 계산하여 박스 수에 대한 객관적인 최적의 수를 결정하는 베이지안 프레임워크를 개발하기 위해.
특정 분포 형태를 가정하는 고전적 박스 너비 규칙(예: 스코트, 프리드먼-다이아코니스)이 다모달 밀도에서 실패하는 문제를 개선하기 위해.
기본 분포에 대한 가정에 크게 의존하지 않는 강력한 비모수적 방법을 제공하여 히스토그램 기반의 밀도 추정을 최적화하기 위해.
이를 다차원 히스토그램으로 확장하고 MATLAB 및 Python에서 실용적인 구현을 제공하기 위해.

제안 방법

모든 박스가 동일한 너비를 가지며, 박스 높이가 확률 밀도를 나타내는 조각별 상수 확률 밀도 함수로 히스토그램을 모델링한다.
관측된 박스 빈도에 다항분포 우도를 할당하며, 데이터가 진짜 밀도에서 i.i.d. 표본으로 추출되었다고 가정한다.
객관적인 추론을 보장하기 위해 박스 확률에 비정보성 제퍼스 사전분포를 사용한다.
모든 가능한 박스 확률 구성에 대해 통합함으로써 박스 수 M에 대한 사후 확률을 유도한다.
다변량 감마 함수와 빈도를 포함한 로그 우도를 이용해 사후 확률을 계산한다.
모든 가능한 M 값에 대해 브루트포스 검색을 통해 사후 확률을 최대화하는 값을 최적의 M로 선택한다.

실험 결과

연구 질문

RQ1과도하게 피팅하거나 과소 피팅되지 않도록 기저 데이터 분포를 가장 잘 대표하는 최적의 히스토그램 박스 수는 무엇인가?
RQ2기본 밀도의 형태에 대한 사전 가정 없이 박스 수를 어떻게 선택할 수 있는가?
RQ3작은 표본 크기나 디지타이징된 데이터에서 박스 수에 대한 베이지안 사후 확률은 어떻게 행동하는가?
RQ4고전적 박스 설정 규칙(예: 스코트, 프리드먼-다이아코니스)이 실패하는 상황은 언제이며, 제안된 방법은 이러한 한계를 어떻게 극복하는가?
RQ5이 방법은 다차원 히스토그램으로 일반화될 수 있으며, 실세계 데이터 분석에 효과적으로 적용될 수 있는가?

주요 결과

이 방법은 비정보성 사전분포를 사용한 베이지안 모델에서 유도된 사후 확률을 최대화함으로써 최적의 박스 수를 선택한다.
정규분포를 따르는 데이터의 경우, 이 방법을 사용해 밀도 모델을 신뢰성 있게 추정하기 위해 약 150개의 데이터가 필요하다.
데이터가 너무 희박할 경우, 박스 수에 대한 사후 확률이 명확한 모드를 가지지 않으며, 이는 박스 구조를 추론할 수 있을 정도의 정보가 부족함을 시사한다.
이 방법은 스코트나 프리드먼-다이아코니스의 고전적 규칙이 단일모달 또는 매끄러운 밀도를 가정하는 바람에 실패하는 다모달 설정에서 더 뛰어난 성능을 보인다.
MATLAB 및 Python(AstroML)에서 알고리즘이 구현되어 있으며, Python 함수는 `knuth_nbins`로 명명되어 있어 널리 접근하고 적용할 수 있다.
최적의 M를 고정함으로써 박스 수의 불확실성을 여전히 고려하지만, 박스 높이의 분산은 약간 과소평가된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.