[论文解读] Optimal Data-Based Binning for Histograms
本文提出一种贝叶斯方法,通过最大化给定数据下箱数的后验概率来确定直方图的最优箱数。采用多项分布似然函数和非信息先验,推导出一种自适应样本大小和分布形状的数据驱动规则,在多峰分布情形下优于经典的规则(如Scott法则和Freedman-Diaconis法则)。
Histograms are convenient non-parametric density estimators, which continue to be used ubiquitously. Summary quantities estimated from histogram-based probability density models depend on the choice of the number of bins. We introduce a straightforward data-based method of determining the optimal number of bins in a uniform bin-width histogram. By assigning a multinomial likelihood and a non-informative prior, we derive the posterior probability for the number of bins in a piecewise-constant density model given the data. In addition, we estimate the mean and standard deviations of the resulting bin heights, examine the effects of small sample sizes and digitized data, and demonstrate the application to multi-dimensional histograms.
研究动机与目标
- 解决缺乏系统性、数据驱动的直方图箱数选择方法的问题,避免使用任意的经验法则。
- 构建一个贝叶斯框架,通过计算箱数的后验概率,客观地确定最优箱数。
- 改进经典箱宽规则(如Scott、Freedman-Diaconis)的局限性,这些规则假设特定的分布形式,且在多峰密度下失效。
- 提供一种稳健的非参数方法,用于基于直方图的密度估计,最大限度减少对底层分布假设的依赖。
- 将该方法推广至多维直方图,并在MATLAB和Python中提供实用实现。
提出的方法
- 将直方图建模为具有M个等宽箱的分段常数概率密度函数,其中箱高表示概率密度。
- 对观测到的箱计数分配多项分布似然,假设数据为来自真实密度的独立同分布样本。
- 在箱概率上使用非信息Jeffreys先验,以确保客观推断。
- 通过在所有可能的箱概率配置上积分,推导出箱数M的后验概率。
- 使用对数边际似然计算后验概率,涉及多重伽马函数和箱计数。
- 通过在可能的M值上进行暴力搜索,选择使后验概率最大的M作为最优值。
实验结果
研究问题
- RQ1什么是最优的箱数,能够最好地表示底层数据分布,同时避免过拟合或欠拟合?
- RQ2如何选择箱数,使其独立于对底层密度形状的先验假设?
- RQ3在小样本量或量化数据情况下,箱数的贝叶斯后验概率表现如何?
- RQ4经典分箱规则(如Scott、Freedman-Diaconis)在哪些情形下会失效,而所提方法如何克服这些局限?
- RQ5该方法能否推广至多维直方图,并在真实世界数据分析中有效应用?
主要发现
- 该方法通过最大化后验概率选择最优箱数,后验概率来自使用非信息先验的贝叶斯模型。
- 对于正态分布数据,约需150个数据点才能可靠地使用该方法估计密度模型。
- 当数据过于稀疏时,箱数的后验概率缺乏明确的众数,表明信息不足,无法推断箱结构。
- 在多峰分布情形下,该方法优于经典规则(如Scott和Freedman-Diaconis),因为后者因假设单峰或平滑密度而失效。
- 该算法已在MATLAB和Python(AstroML)中实现,Python函数名为`knuth_nbins`,具有广泛的可及性和应用性。
- 该方法通过使用边际后验考虑了箱数的不确定性,但由于固定了最优M,箱高方差被略微低估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。