Skip to main content
QUICK REVIEW

[論文レビュー] Fitting heavy tailed distributions: the poweRlaw package

Colin S. Gillespie|arXiv (Cornell University)|Jul 13, 2014
Diffusion and Search Dynamics参考文献 14被引用数 105
ひとこと要約

この論文は、最尤推定と厳密な仮説検定を用いて、重めの尾を持つ分布——特にべき乗則と対数正規分布——をフィッティングし、比較するための原理的で統計的なフレームワークを提供する poweRlaw Rパッケージを紹介している。研究者はスケーリングパラメータを信頼性高く推定し、最適な下限境界($x_{\min}$)を選択し、ヴォンの検定を用いてモデルを比較できる。これは、べき乗則フィッティングに一般的に誤用されている対数-対数プロットの問題を解決する。

ABSTRACT

Over the last few years, the power law distribution has been used as the data generating mechanism in many disparate fields. However, at times the techniques used to fit the power law distribution have been inappropriate. This paper describes the poweRlaw R package, which makes fitting power laws and other heavy-tailed distributions straightforward. This package contains R functions for fitting, comparing and visualising heavy tailed distributions. Overall, it provides a principled approach to power law fitting.

研究の動機と目的

  • べき乗則のフィッティングに一般的に誤用されている対数-対数プロットの問題を是正すること。これは、偏ったかつ信頼性の低いパラメータ推定を引き起こす。
  • 実証的データにおける重めの尾を持つ分布、特にべき乗則のフィッティングに原理的で統計的なアプローチを提供すること。
  • 重めの尾を持つ分布のフィッティング、比較、可視化を支援する、使いやすく一貫性のあるRパッケージの開発。
  • 研究者が正式な統計的基準に従って、データに最もよく合うべき乗則か、他の重めの尾を持つ分布かをテストできるようにすること。

提案手法

  • 連続的および離散的べき乗則分布の両方に対して最尤推定(MLE)を用い、離散データには $x_{\min} - 0.5$ を用いた補正されたMLE近似を適用する。
  • 実証的累積分布関数と理論的累積分布関数の間の距離を最小化することで、最適な $x_{\min}$ をコルモゴロフ=スミルノフ(KS)統計量を用いて推定する。
  • 非ネスト型モデル(例:べき乗則対対数正規分布)を統計的に比較するためのヴォンの検定を実装し、真のデータ生成過程に近いかどうかを評価する。
  • データ、$x_{\min}$、パラメータ、内部キャッシュをカプセル化する、S4参照クラスによる分布オブジェクトを提供する。
  • 対数尤度比とブートストラップ手順を用いて、モデルの適合度とパラメータの不確実性を評価する。
  • 一貫したオブジェクト指向インターフェースを通じて、確率密度関数(PDF)、累積分布関数(CDF)、乱数生成、およびデータのCDFプロットのための標準化されたメソッドを提供する。

実験結果

リサーチクエスチョン

  • RQ1対数-対数プロットのような不適切なフィッティング手法による誤差が原因で、観測されたパターンがべき乗則の適合であると見なせるのか、それとも単なるアーティファクトなのか?
  • RQ2実証的分布関数と理論的分布関数の乖離を最小にする最適な $x_{\min}$ の値は何か?
  • RQ3与えられたデータセットに対して、べき乗則分布が対数正規分布などの他の重めの尾を持つ分布よりもより良い適合を示すのか?
  • RQ4ヴォンの検定のような統計的仮説検定は、現実のデータにフィットする際、競合する重めの尾を持つモデルを信頼性高く区別できるのか?
  • RQ5研究者が主観的または臨機応変なフィッティング手順を避けるために、重めの尾を持つ分布を体系的かつ一貫して比較・検証する方法は何か?

主な発見

  • パッケージは、対数-対数プロットの落とし穴を避けるため、最尤推定を用いてべき乗則や他の重めの尾を持つ分布を信頼性高くフィッティング可能である。
  • 最適な $x_{\min}$ はコルモゴロフ=スミルノフ統計量を用いて推定され、主観性が低減され、モデルの正確性が向上する。
  • ヴォンの検定は非ネスト型モデル間の正式な統計的比較を可能にし、『モビー・ディック』の単語頻度例ではp値0.682が得られ、べき乗則と対数正規分布のどちらにも顕著な優位性がないことが示された。
  • オブジェクト指向アーキテクチャのおかげで、共通の構文を用いて複数の分布を一貫して、かつ効率的な内部キャッシュを活用してフィッティングできる。
  • ブートストラップ手順により不確実性の評価が可能となり、パラメータおよび $x_{\min}$ の信頼区間の堅牢な推定が可能になる。
  • フレームワークにより、研究者が実証的データにおけるべき乗則行動の過剰主張を避ける、原理的なモデル比較が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。