[论文解读] Evolutionary Dynamics of the World Wide Web
本文提出了一种万维网的随机演化模型,通过考虑网站的可变增长率和不同的创建时间,解释了每个站点页面数量的幂律分布。利用对数正态增长过程和时间加权混合模型,该模型预测了一个普遍存在的幂律分布,指数 β ≈ 1.7–1.9,该预测经由 Alexa 和 Infoseek 的大规模爬取数据验证,使得无需全面爬取即可估算稀有大型站点的数量。
We present a theory for the growth dynamics of the World Wide Web that takes into account the wide range of stochastic growth rates in the number of pages per site, as well as the fact that new sites are created at different times. This leads to the prediction of a universal power law in the distribution of the number of pages per site which we confirm experimentally by analyzing data from large crawls made by the search engines Alexa and Infoseek. The existence of this power law not only implies the lack of any length scale for the Web, but also allows one to determine the expected number of sites of any given size without having to exhaustively crawl the Web.
研究动机与目标
- 开发一个随机模型,以解释万维网上每个网站页面数量的观测分布。
- 在万维网演化的背景下,考虑不同站点之间可变的增长率和不同的创建时间。
- 预测站点规模分布中普遍存在的幂律,且该幂律与尺度无关。
- 通过 Alexa 和 Infoseek 的大规模网络爬取实证数据验证理论模型。
- 在无需全面爬取的前提下,利用幂律估算极大型站点的数量。
提出的方法
- 将站点增长建模为随机过程,其中页面数量随现有页面数量成比例增长,增长率随时间变化,g(t) = g₀ + ξ(t),其中 ξ(t) 为零均值且不相关的噪声。
- 通过求解随机微分方程 dn/dt = [g₀ + ξ(t)]n,推导出站点规模随时间的对数正态分布,得到 n(t) = n(0)exp(g₀t + wₜ),其中 wₜ 为维纳过程。
- 通过积分服从指数分布的创建时间,考虑新站点随时间的创建,得到对数正态分布的混合。
- 通过解析求解混合分布的时间加权积分,推导出渐近幂律 P(n) ∝ n⁻ᵝ,其指数 β 依赖于 g₀、σ² 和创建速率 λ。
- 通过将不同站点的异质增长率相加,得到个体幂律 P(n|gᵢ) ∝ n⁻ᵝ⁽ᵍⁱ⁾,最终整体幂律的指数 β 由混合中最小的 β 决定。
- 通过在对数-对数图上对站点频率与规模进行线性回归,将理论幂律拟合到两个大规模网络爬取(Alexa 和 Infoseek)的实证数据,以验证模型。
实验结果
研究问题
- RQ1网站的页面数量分布是否遵循幂律?如果是,其普遍性背后的机制是什么?
- RQ2可变增长率与网站创建时间的差异如何共同塑造观测到的规模分布?
- RQ3基于成比例增长和不相关波动的随机增长模型,能否再现站点规模的实证幂律?
- RQ4在同时考虑创建以来的时间和随机增长的情况下,站点规模分布的函数形式是什么?
- RQ5幂律是否可用于可靠估算极大型网站的数量,而无需进行全面的网络爬取?
主要发现
- 页面数量的分布遵循普遍幂律 P(n) ∝ n⁻ᵝ,其中 Alexa 爬取的指数 β 范围为 [1.647, 1.853],Infoseek 爬取的指数 β 范围为 [1.775, 1.909],与理论预测一致。
- 该幂律在两个独立的大规模网络爬取中均表现稳健,表明这是万维网增长动力学的基本结构性质。
- 该模型预测,可通过外推法估算任意给定规模的站点数量,使用公式 P(n₂) = P(n₁)(n₁/n₂)⁻ᵝ,从而估算稀有大型站点。
- 幂律源于按站点创建时间加权的对数正态分布混合,其指数 β 由 g₀、σ² 和创建速率 λ 决定。
- 该模型解释了在约 10⁵ 个页面处观测到的站点频率下降,其原因归因于爬虫限制,而非真实分布的变化。
- 幂律的存在意味着万维网中不存在特征尺度,支持其具有自相似、无标度增长动力学的观点。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。