QUICK REVIEW

[論文レビュー] Optimal Data-Based Binning for Histograms

Kevin H. Knuth|arXiv (Cornell University)|May 23, 2006

Neural Networks and Applications参考文献 22被引用数 135

ひとこと要約

本稿では、データの事後確率を最大化することによって、ヒストグラムの最適なビン数を決定するベイジアン手法を提案する。多項分布尤度関数と非情報的事前分布を用い、標本サイズや分布の形状に適応するデータ駆動型のルールを導出する。これはスコット則やフリードマン＝ダイアコニス則といった古典的手法よりも、多モーダルな設定で優れている。

ABSTRACT

Histograms are convenient non-parametric density estimators, which continue to be used ubiquitously. Summary quantities estimated from histogram-based probability density models depend on the choice of the number of bins. We introduce a straightforward data-based method of determining the optimal number of bins in a uniform bin-width histogram. By assigning a multinomial likelihood and a non-informative prior, we derive the posterior probability for the number of bins in a piecewise-constant density model given the data. In addition, we estimate the mean and standard deviations of the resulting bin heights, examine the effects of small sample sizes and digitized data, and demonstrate the application to multi-dimensional histograms.

研究の動機と目的

ヒストグラムのビン数を決定するための原理的でデータ駆動型の方法が不足しているという問題に取り組む。これは恣意的な経験則に依存しないものである。
ビン数の事後確率を計算することによって、客観的に最適なビン数を特定するベイジアンフレームワークを構築する。
特定の分布形を仮定する古典的手法（例：スコット、フリードマン＝ダイアコニス）の改善を図る。これらは単一モードまたは滑らかな密度を仮定しており、多モーダル密度では失敗する。
基礎となる分布に関する仮定に依存しない、頑健な非パラメトリックなヒストグラムベースの密度推定法を提供する。
多変量ヒストグラムへの拡張を図り、MATLABおよびPythonでの実装を提供する。

提案手法

ビンの幅を等しくし、M個のビンで構成される区分的定数確率密度関数としてヒストグラムをモデル化する。ビンの高さは確率密度を表す。
観測されたビン度数に多項分布尤度関数を割り当て、データが真の密度から独立同分布に抽出されたものと仮定する。
客観的推論を保証するため、ビン確率に非情報的ジェイファレーズ事前分布を適用する。
すべての可能なビン確率構成について周辺化することで、ビン数Mの事後確率を導出する。
多変数ガンマ関数と度数を含む対数尤度を用いて、事後確率を計算する。
最適なMを、可能なM値の全範囲に対してブルートフォースサーチによって、事後確率が最大になる値として選択する。

実験結果

リサーチクエスチョン

RQ1過学習や不足学習を避けるために、真のデータ分布を最もよく表現するヒストグラムの最適なビン数は何か？
RQ2基礎となる密度の形状に関する事前の仮定に依存しない方法で、ビン数をどのように選択できるか？
RQ3データが少ない場合やデジタル化されたデータの場合、ビン数のベイジアン事後確率はどのように振る舞うか？
RQ4スコット則やフリードマン＝ダイアコニス則といった古典的手法が失敗する状況とは何か？そして、本手法はその制限をどのように克服するか？
RQ5本手法は多変量ヒストグラムへ一般化可能であり、実世界のデータ分析において効果的に適用可能か？

主な発見

最適なビン数は、非情報的事前分布を用いたベイジアンモデルから導出された事後確率を最大化することによって選択される。
正規分布に従うデータでは、この手法を用いて密度モデルを信頼性高く推定するには約150件のデータが必要である。
データが希釈している場合、ビン数の事後確率に明確なモードが存在せず、ビン構造を推論するのに十分な情報がないことを示唆する。
スコット則やフリードマン＝ダイアコニス則といった古典的手法よりも、多モーダルな設定で本手法が優れている。これらの手法は単一モードまたは滑らかな密度を仮定しており、多モーダル密度では失敗する。
MATLABおよびPython（AstroML）での実装が可能であり、Python関数は`knuth_nbins`として名付けられており、広範な利用可能性と応用を可能にしている。
最適なMを固定することで、ビン数の不確実性を周辺事後確率を用いて扱うが、ビン高さの分散はわずかに低めに推定される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。