Skip to main content
QUICK REVIEW

[论文解读] Log-normal statistics in e-mail communication patterns

Daniel B. Stouffer, R. Dean Malmgren|ArXiv.org|May 3, 2006
Scientific Research and Discoveries参考文献 7被引用 34
一句话总结

本研究重新分析了3,188名大学生用户群体的电子邮件通信模式,表明事件间时间间隔服从单个对数正态分布,而等待时间则最好由两个对数正态分布的叠加来描述。通过贝叶斯模型选择,作者否定了指数≈1的截断幂律拟合,并批判巴尔巴西(Barabási)的优先级队列模型在理论上不可行,最终得出结论:人类电子邮件行为的稳健理论描述仍是待解问题。

ABSTRACT

Following up on Barabasi's recent letter to Nature [435, 207--211 (2005)], we systematically investigate the time series of e-mail usage for 3,188 users at a university. We focus on two quantities for each user: the time interval between consecutively sent e-mails (interevent time), and the time interval between when a user sends an e-mail and when a recipient sends an e-mail back to the original sender (waiting time). We perform a standard Bayesian model selection analysis that demonstrates that the interevent times are well-described by a single log-normal while the waiting times are better described by the superposition of two log-normals. Our analysis rejects the possibility that either measure could be described by truncated power-law distributions with exponent $α\simeq 1$. We also critically evaluate the priority queuing model proposed by Barabási to describe the distribution of the waiting times. We show that neither the assumptions nor the predictions of the model are plausible, and conclude that a theoretical description of human e-mail communication patterns remains an open problem.

研究动机与目标

  • 使用严格的统计方法重新表达并重新分析电子邮件通信模式。
  • 检验事件间时间与等待时间是否如巴尔巴西所声称的那样,服从指数≈1的截断幂律分布。
  • 评估巴尔巴西优先级队列模型在解释等待时间分布方面的合理性。
  • 确定对数正态分布是否比幂律模型更优地拟合实证电子邮件数据。
  • 识别当前人类通信动力学理论模型的根本局限性。

提出的方法

  • 应用贝叶斯模型选择,比较对数正态分布与截断幂律分布对事件间时间与等待时间数据的拟合效果。
  • 通过合并5秒内发送且大小相同的电子邮件,对电子邮件数据进行预处理,以消除客户端与服务器端的干扰。
  • 使用最大似然估计法,对等待时间数据拟合单个与双对数正态分布。
  • 通过模拟优先级队列模型的瞬态与稳态行为,并与实证数据对比,评估其有效性。
  • 通过统计假设检验,基于贝叶斯模型比较,否定了指数≈1的幂律模型,转而支持双对数正态模型。
  • 分析模型的假设与预测,特别是队列优先级收敛至均匀分布的特性,以评估其理论合理性。

实验结果

研究问题

  • RQ1电子邮件通信中的事件间时间是否如先前所声称的那样,服从指数≈1的截断幂律分布?
  • RQ2电子邮件回复之间的等待时间分布,是否更适宜由单个对数正态分布,还是两个对数正态分布的叠加来描述?
  • RQ3巴尔巴西的优先级队列模型是否能够再现电子邮件通信中等待时间的实证分布?
  • RQ4优先级队列模型的假设及其长期行为是否与观察到的人类电子邮件行为一致?
  • RQ5哪种统计模型最能拟合实证电子邮件通信模式?这对人类动力学的理论建模有何启示?

主要发现

  • 电子邮件用户的事件间时间最好由单个对数正态分布描述,而非指数≈1的截断幂律分布。
  • 等待时间分布由两个对数正态分布的叠加拟合得显著优于任何幂律模型。
  • 基于贝叶斯模型比较,实证数据以极高的置信度否定了指数≈1的幂律尾部假设。
  • 巴尔巴西提出的优先级队列模型无法再现实证数据,因其稳态行为预测在τw = 1处出现峰值,且主导分布,与真实电子邮件行为相矛盾。
  • 该模型的假设导致了不切实际的动力学行为,如队列优先级收敛至均匀分布,且高概率立即执行任务,这与实际人类通信模式不符。
  • 研究结果表明,人类电子邮件通信动力学的理论描述仍是开放问题,因为现有模型无法准确捕捉实证数据特征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。