Skip to main content
QUICK REVIEW

[论文解读] Differences between Independent Variables and Almost Benford Behavior

Steven J. Miller, Mark J. Nigrini|arXiv (Cornell University)|Jan 13, 2006
Benford’s Law and Fraud Detection被引用 2
一句话总结

本文研究了独立同分布随机变量顺序统计量差值中数字的分布,表明在温和条件下,这些差值会通过由样本大小和支撑尺度决定的偏移,收敛至接近本福德定律的偏移指数分布行为。通过泊松求和与对数分布模1的傅里叶分析,推导出偏离本福德定律的显式、快速收敛公式。

ABSTRACT

Fix a base B and let zeta have the standard exponential distribution; the distribution of digits of zeta base B is known to be very close to Benford's Law. If there exists a C such that the distribution of digits of C times the elements of some set is the same as that of zeta, we say that set exhibits shifted exponential behavior base B (with a shift of log_B C \bmod 1). Let X_1, >..., X_N be independent identically distributed random variables. If the X_i's are drawn from the uniform distribution on [0,L], then as N o\infty the distribution of the digits of the differences between adjacent order statistics converges to shifted exponential behavior (with a shift of \log_B L/N \bmod 1). By differentiating the cumulative distribution function of the logarithms modulo 1, applying Poisson Summation and then integrating the resulting expression, we derive rapidly converging explicit formulas measuring the deviations from Benford's Law. Fix a delta in (0,1) and choose N independent random variables from any compactly supported distribution with uniformly bounded first and second derivatives and a second order Taylor series expansion at each point. The distribution of digits of any N^\delta consecutive differences \emph{and} all N-1 normalized differences of the order statistics exhibit shifted exponential behavior. We derive conditions on the probability density which determine whether or not the distribution of the digits of all the un-normalized differences converges to Benford's Law, shifted exponential behavior, or oscillates between the two, and show that the Pareto distribution leads to oscillating behavior.

研究动机与目标

  • 理解从紧支撑分布中抽取的独立同分布随机变量相邻顺序统计量差值的数字分布。
  • 确定这些差值在何种条件下收敛至本福德定律、偏移指数分布行为,或在两者之间振荡。
  • 推导出精确且快速收敛的公式,用于度量数字分布偏离本福德定律的程度。
  • 表征底层概率密度函数的光滑性与尾部行为(尤其是帕累托情形)对数字分布收敛性的影响。

提出的方法

  • 应用差值对数模1的累积分布函数来建模数字分布。
  • 使用泊松求和将分布转换为傅里叶级数,从而实现对偏离本福德定律的精确分析。
  • 对模1的对数差值的累积分布函数求导,并对所得表达式进行积分,以推导出显式的误差公式。
  • 分析推导出的公式在不同样本大小N和分布参数下的行为,以确定收敛类型。
  • 建立对概率密度函数的条件,特别是有界的一阶与二阶导数以及二阶泰勒展开,以确保收敛至偏移指数分布行为。
  • 研究帕累托分布作为数字分布在本福德定律与偏移指数分布行为之间振荡的案例,这是由于其重尾特性所致。

实验结果

研究问题

  • RQ1在何种条件下,独立同分布样本的顺序统计量差值会收敛至本福德定律或偏移指数分布行为?
  • RQ2如何通过快速收敛的显式公式,精确量化数字分布偏离本福德定律的程度?
  • RQ3尺度参数L与样本大小N在决定数字分布指数行为的偏移中起什么作用?
  • RQ4为何帕累托分布会导致数字分布的振荡行为,而非收敛至单一极限?
  • RQ5底层密度的光滑性与有界导数如何影响数字分布收敛至偏移指数分布行为?

主要发现

  • 对于独立同分布的均匀分布[0,L]变量,相邻顺序统计量差值的数字分布随着N → ∞,收敛至偏移为log_B(L/N) mod 1的偏移指数分布行为。
  • 通过泊松求和与积分推导出的显式公式,为偏离本福德定律提供了快速收敛的近似。
  • 对于任意具有有界一阶与二阶导数及二阶泰勒展开的紧支撑分布,N^δ个连续且所有归一化的顺序统计量差值均表现出偏移指数分布行为。
  • 未归一化的顺序统计量差值仅在密度满足特定光滑性与尾部条件时才收敛至本福德定律;否则,可能收敛至偏移指数分布行为或发生振荡。
  • 帕累托分布由于其重尾特性,导致数字分布出现振荡行为,无法收敛至本福德定律或固定的偏移指数分布。
  • 偏移指数分布行为中的偏移由log_B C mod 1决定,其中C是与支撑和样本大小相关的尺度因子,该偏移决定了与严格本福德行为的偏离程度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。