Skip to main content
QUICK REVIEW

[論文レビュー] Evolutionary Dynamics of the World Wide Web

Bernardo A. Huberman, Lada A. Adamic|ArXiv.org|Jan 8, 1999
Web visibility and informetrics参考文献 1被引用数 47
ひとこと要約

本稿では、ウェブサイトのページ数のべき乗則的分布を、ウェブサイトの成長率の変動と作成時刻の違いを考慮することで説明する確率的進化的モデルを提案する。対数正規成長過程と時間重み付き混合モデルを用い、普遍的なべき乗則(指数β ≈ 1.7–1.9)を予測する。これは、AlexaおよびInfoseekによる大規模クローリングによって確認され、全クローリングを実施せずに極めて大きなサイトの数を推定可能である。

ABSTRACT

We present a theory for the growth dynamics of the World Wide Web that takes into account the wide range of stochastic growth rates in the number of pages per site, as well as the fact that new sites are created at different times. This leads to the prediction of a universal power law in the distribution of the number of pages per site which we confirm experimentally by analyzing data from large crawls made by the search engines Alexa and Infoseek. The existence of this power law not only implies the lack of any length scale for the Web, but also allows one to determine the expected number of sites of any given size without having to exhaustively crawl the Web.

研究の動機と目的

  • 世界中のウェブサイトのページ数の観察された分布を説明する確率的モデルの開発を目的とする。
  • ウェブの進化過程において、サイト間での成長率の変動と作成時刻の違いを考慮することを目的とする。
  • スケールに依存しない普遍的なサイトサイズ分布におけるべき乗則の存在を予測することを目的とする。
  • AlexaおよびInfoseekによる大規模ウェブクローリングから得た実証データを用いて、理論的モデルの妥当性を検証することを目的とする。
  • 全クローリングを実施せずに、極めて大きなサイトの数を推定可能にするため、べき乗則の活用を目的とする。

提案手法

  • サイト成長を、ページ数が現在のページ数に比例して増加する確率的過程としてモデル化し、時間に依存する成長率g(t) = g₀ + ξ(t)を採用する。ここでξ(t)は平均が0の無相関ノイズである。
  • 確率微分方程式dn/dt = [g₀ + ξ(t)]nの解を用いて、サイトサイズの対数正規分布を導出する。これによりn(t) = n(0)exp(g₀t + wₜ)が得られ、ここでwₜはウィーナー過程である。
  • 新規サイトの時間的生成を考慮するため、作成時刻の指数分布を統合し、対数正規分布の混合モデルを得る。
  • 時間重み付き積分の解析的解法により、漸近的べき乗則P(n) ∝ n⁻ᵝを導出する。この指数βはg₀、σ²、および作成レートλに依存する。
  • サイト間での成長率の不均一性を考慮するため、個々のサイトのべき乗則P(n|gᵢ) ∝ n⁻ᵝ⁽ᵍⁱ⁾を合算し、最小のβを有する分布が支配的となる全体のべき乗則を導出する。
  • 理論的べき乗則を、AlexaおよびInfoseekによる2つの大規模ウェブクロールの実証データにフィットさせる。サイト頻度とサイズの対数プロット上で線形回帰を用いる。

実験結果

リサーチクエスチョン

  • RQ1ウェブサイトのページ数の分布はべき乗則に従うか? もしそうであるなら、その普遍性を説明するメカニズムは何か?
  • RQ2ウェブサイトの成長率の変動と作成時刻の違いが、観察されたサイズ分布にどのように寄与するか?
  • RQ3比例的成長と無相関フラクチュエーションに基づく確率的成長モデルは、サイトサイズにおける実証的べき乗則を再現できるか?
  • RQ4作成時刻と確率的成長の両方を考慮した場合、サイトサイズ分布の関数的形態は何か?
  • RQ5べき乗則を用いることで、全ウェブクローリングを実施せずに、極めて大きなウェブサイトの数を信頼性高く推定可能か?

主な発見

  • Alexaクロールではβ ∈ [1.647, 1.853]、Infoseekクロールではβ ∈ [1.775, 1.909]の範囲で、サイトごとのページ数の分布が普遍的なべき乗則P(n) ∝ n⁻ᵝに従うことが確認され、理論的予測と一致した。
  • 2つの独立した大規模ウェブクローリングにおいてもべき乗則が安定に観察されたため、ウェブ成長ダイナミクスの根本的構造的性質であることが示された。
  • モデルは、P(n₂) = P(n₁)(n₁/n₂)⁻ᵝを用いた外挿法により、任意のサイズのサイト数を推定可能であると予測する。これにより、極めて大きなサイトの数の推定が可能となる。
  • べき乗則は、サイト作成時刻で重み付けされた対数正規分布の混合から生じ、指数βはg₀、σ²、および作成レートλに依存する。
  • 約10⁵ページの周辺で観察されるサイト頻度の低下は、クローラーの制限によるものであり、分布自体の変化とは無関係であると特定された。
  • べき乗則の存在は、ウェブに特徴的なスケールがないことを示し、自己同形的・スケールフリーな成長ダイナミクスの概念を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。