QUICK REVIEW

[論文レビュー] A Gap in the Community-Size Distribution of a Large-Scale Social Networking Site

Kikuo Yuta, Naoaki Ono|ArXiv.org|Jan 15, 2007

Complex Network Analysis Techniques参考文献 5被引用数 40

ひとこと要約

この論文は、大規模なソーシャルネットワーキングサイト（SNS）のコミュニティサイズ分布に、以前に観察されていなかったギャップを特定した。このギャップとは、特定のサイズ範囲に属するコミュニティが極めて少ないという特徴である。著者らは、近隣ノードへのリンクとランダムリンクの二重プロセスモデルを提案し、このギャップに加え、長尾型の次数分布、高いクラスタリング係数、次数相関といった特徴を説明している。その結果、オンラインSNSではオフラインネットワークよりもランダムな知人関係構築プロセスがより顕著に機能している可能性が示唆された。

ABSTRACT

Social networking sites (SNS) have recently used by millions of people all over the world. An SNS is a society on the Internet, where people communicate and foster friendship with each other. We examine a nation-wide SNS (more than six million users at present), mutually acknowledged friendship network with third million people and nearly two million links. By employing a community-extracting method developed by Newman and others, we found that there exists a range of community-sizes in which only few communities are detected. This novel feature cannot be explained by previous growth models of networks. We present a simple model with two processes of acquaintance, connecting nearest neighbors and random linkage. We show that the model can explain the gap in the community-size distribution as well as other statistical properties including long-tail degree distribution, high transitivity, its correlation with degree, and degree-degree correlation. The model can estimate how the two processes, which are ubiquitous in many social networks, are working with relative frequencies in the SNS as well as other societies.

研究の動機と目的

360,000人を超えるユーザーと約200万件の相互フレンドシップを有する大規模かつ全国的規模のソーシャルネットワーキングサイトの構造的性質を調査すること。
特定のサイズ範囲に属するコミュニティが極めて少ないという、新たなギャップを同定し、その特徴を明らかにすること。
近隣へのリンクとランダムな知人関係構築という二つの主要な社会的プロセスを捉えた最小限の生成モデルを用いて、このギャップの起源を説明すること。
これらのプロセスの相対的頻度を定量的に評価し、特にコミュニティ形成に与える影響を評価すること。
モデルの予測結果を実データ（次数分布、クラスタリング係数、次数相関など）と比較すること。

提案手法

SNSのフレンドシップネットワークからコミュニティを抽出するために、Newman-Girvanコミュニティ検出アルゴリズム（CNM）を適用した。
二プロセスネットワーク成長モデルを提案した：(1) 近隣ノードへのリンク（友人の友人）、(2) 直接的なつながりを超えた社会的属性に基づくランダムリンク。
モデル内でランダムリンクと近隣リンクの相対的頻度を制御するパラメータ r を用いた。
さまざまな r 値とネットワークサイズ N に対してシミュレーションを実行し、実データのサイズ（N ≈ 360,802）とリンク数（M ≈ 200万）に一致させるように調整した。
モデルの適合度を評価するためにモジュラリティ Q を計算し、モデル出力（次数分布、クラスタリング係数、コミュニティサイズ）を実データと比較した。
シミュレートされたネットワークのサイズとリンク数を実ネットワークに一致させるために、パラメータ u = 0.81 を用いた。

実験結果

リサーチクエスチョン

RQ1なぜ大規模SNSのコミュニティサイズ分布に、特定のサイズ範囲に属するコミュニティが極めて少ないギャップが現れるのか？
RQ2単純なネットワークモデルが、観察されたギャップに加え、スケールフリー次数分布や高いクラスタリング係数といった既知のネットワーク特性を説明できるか？
RQ3近隣ノードへのリンクとランダムリンクのプロセスは、オンラインソーシャルネットワークにおけるコミュニティ構造にどのように寄与しているか？
RQ4パラメータ r で制御されるランダムリンクの相対的頻度が、ギャップの出現にどのように影響するか？
RQ5ネットワークがより大きくなるに従い、ギャップは顕著になるのだろうか？この挙動は実データと整合的か？

主な発見

SNSのコミュニティサイズ分布には顕著なギャップが存在し、特定のサイズ範囲に属するコミュニティが極めて少ないという特徴が、他のネットワーク（共同購入や学術共同研究ネットワークなど）には見られない。
r = 0（ランダムリンクなし）のモデルではギャップが存在しないため、ギャップの出現にはランダムリンクが不可欠であることが示された。
モデルは実験的特徴を再現している：長尾型の次数分布、次数が増加するにつれて減少するクラスタリング係数、および正の次数相関。
モデル内では、ネットワークサイズが増大するに従いギャップが拡大する傾向が観察され、これは実データにおける大きな N での観測結果と整合的である。
最適なパラメータ r ≈ 0.04（4％）が、実ネットワークのモジュラリティ Q を最もよく再現しており、SNSではこの相対的頻度でランダムリンクが発生していると示唆された。
モデルの結果から、オンラインSNSではオフライン社会的ネットワークよりもランダムな知人関係構築プロセスがより顕著に機能している可能性が示唆された。これは、プラットフォーム設計が広範なつながりを容易にする要因であると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。