QUICK REVIEW

[论文解读] Fitting heavy tailed distributions: the poweRlaw package

Colin S. Gillespie|arXiv (Cornell University)|Jul 13, 2014

Diffusion and Search Dynamics参考文献 14被引用 105

一句话总结

该论文介绍了 poweRlaw R 包，这是一个基于最大似然估计和严格的假设检验的、原则性的统计框架，用于拟合和比较重尾分布——特别是幂律分布和对数正态分布。该框架使研究人员能够可靠地估计幂律参数、选择最优的下界值（$x_{\min}$），并通过 Vuong 检验比较模型，解决了广泛使用对数坐标图进行幂律拟合所导致的偏差和不可靠参数估计问题。

ABSTRACT

Over the last few years, the power law distribution has been used as the data generating mechanism in many disparate fields. However, at times the techniques used to fit the power law distribution have been inappropriate. This paper describes the poweRlaw R package, which makes fitting power laws and other heavy-tailed distributions straightforward. This package contains R functions for fitting, comparing and visualising heavy tailed distributions. Overall, it provides a principled approach to power law fitting.

研究动机与目标

为解决广泛使用对数坐标图拟合幂律分布所导致的偏差和不可靠参数估计问题。
为经验数据中拟合重尾分布（特别是幂律分布）提供一个原则性、统计性的方法。
开发一个易于使用、一致的 R 包，支持重尾分布的拟合、比较和可视化。
使研究人员能够通过正式的统计标准，检验幂律分布或替代的重尾分布是否更优地拟合其数据。

提出的方法

对连续和离散幂律分布均使用最大似然估计（MLE），对离散数据采用修正的 MLE 近似，使用 $x_{\min} - 0.5$ 进行校正。
使用柯尔莫哥洛夫-斯米尔诺夫（KS）统计量估计最优 $x_{\min}$，通过最小化经验分布函数与拟合分布函数之间的距离。
实现 Vuong 检验，用于统计比较非嵌套模型（如幂律 vs. 对数正态分布），评估哪个模型更接近真实的数据生成过程。
通过 S4 引用类封装分布对象，包含数据、$x_{\min}$、参数以及内部缓存，以实现高效计算。
通过对数似然比和自助法程序支持模型比较，以评估模型拟合度和参数不确定性。
通过一致的面向对象接口，提供标准化的方法用于绘制概率密度函数（PDF）、累积分布函数（CDF）、生成随机变量以及绘制数据 CDF。

实验结果

研究问题

RQ1幂律分布是否在统计上是经验数据的合理拟合，还是观察到的模式仅仅是由于使用对数坐标图等不良拟合技术所导致的伪影？
RQ2使经验分布函数与理论分布函数之间差异最小化的最优 $x_{\min}$ 值是什么？
RQ3对于给定的数据集，幂律分布是否比对数正态等替代重尾分布提供更优的拟合？
RQ4当拟合真实世界数据时，像 Vuong 检验这样的统计假设检验是否能可靠地区分竞争性的重尾模型？
RQ5研究人员如何系统性地比较和验证重尾分布，以避免主观或临时的拟合方法？

主要发现

该包通过最大似然估计实现了对幂律和其他重尾分布的可靠拟合，避免了对数坐标图拟合的缺陷。
通过柯尔莫哥洛夫-斯米尔诺夫统计量估计最优 $x_{\min}$，减少了主观性并提高了模型准确性。
Vuong 检验为非嵌套模型提供了正式的统计比较，Moby Dick 词频示例中 p 值为 0.682，表明在幂律与对数正态拟合之间无显著偏好。
该包的面向对象设计支持使用统一语法一致、模块化地拟合多种分布，并通过内部缓存实现高效计算。
通过自助法程序支持不确定性量化，能够稳健估计参数和 $x_{\min}$ 的置信区间。
该框架促进了原则性的模型比较，帮助研究人员避免在经验数据中过度宣称幂律行为。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。