[論文レビュー] Predicting Influential Users in Online Social Networks
本稿では、影響力モデルが予測しようとする動的プロセスと整合する必要があると提唱しており、非保存的プロセス(例:情報拡散)を示すDigg(非保存的情報フローを持つソーシャルニュースネットワーク)において、非保存的モデル(正規化αセンタリティ)が保存的モデルを上回ることを実証している。実証的検証では、正規化αセンタリティが再現率0.76を達成し、PageRank(0.29)およびインデグリーセンタリティ(0.60)を著しく上回っている。
Who are the influential people in an online social network? The answer to this question depends not only on the structure of the network, but also on details of the dynamic processes occurring on it. We classify these processes as conservative and non-conservative. A random walk on a network is an example of a conservative dynamic process, while information spread is non-conservative. The influence models used to rank network nodes can be similarly classified, depending on the dynamic process they implicitly emulate. We claim that in order to correctly rank network nodes, the influence model has to match the details of the dynamic process. We study a real-world network on the social news aggregator Digg, which allows users to post and vote for news stories. We empirically define influence as the number of in-network votes a user's post generates. This influence measure, and the resulting ranking, arises entirely from the dynamics of voting on Digg, which represents non-conservative information flow. We then compare predictions of different influence models with this empirical estimate of influence. The results show that non-conservative models are better able to predict influential users on Digg. We find that normalized alpha-centrality metric turns out to be one of the best predictors of influence. We also present a simple algorithm for computing this metric and the associated mathematical formulation and analytical proofs.
研究の動機と目的
- オンラインソーシャルネットワークにおける影響力を持つユーザーを予測するための最も正確な影響力モデルを特定すること。
- ネットワークフローにおける保存的プロセスと非保存的プロセスを区別すること。
- Diggにおける実際のユーザー行動から得た影響力の実証的測定値を用いて影響力モデルを評価すること。
- モデル選択がネットワークの下位にある動的プロセスと一致する必要があることを示すこと。
- 正規化αセンタリティを計算するための単純なアルゴリズムと解析的証明を提供すること。
提案手法
- 質量保存に基づき、動的プロセスを保存的(例:ランダムウォーク)または非保存的(例:情報拡散)に分類すること。
- Diggにおけるユーザーの投稿が得るネットワーク内での投票数として、実際のユーザー投票行動から得た実証的影響力を定義すること。
- 予測順位と実証的影響力順位との相関を用いて、12種類の影響力モデルを評価すること。
- 単純なアルゴリズムと解析的導出を提供する非保存的モデルとして正規化αセンタリティを用いること。
- 相関係数と再現率の指標を用いてモデルのパフォーマンスを比較し、再現率は上位の影響力を持つユーザーがどれだけうまく予測されたかを測定すること。
- 69,524人のユーザーにモデルを適用し、実証的に影響力が測定された上位100人の投稿者に焦点を当てる。
実験結果
リサーチクエスチョン
- RQ1非保存的(例:情報拡散)に拡散するオンラインソーシャルネットワークにおいて、どの影響力モデルがユーザーの影響力を最もよく予測できるか?
- RQ2Diggにおける現実世界の影響力を予測する際、保存的モデル(例:PageRank、媒介性)と非保存的モデル(例:αセンタリティ)のパフォーマンスはどのように異なるか?
- RQ3正規化αセンタリティはDiggネットワークにおける実証的観察影響力とどの程度相関しているか?
- RQ4なぜ情報伝搬のような非保存的ダイナミクスを持つネットワークでは、非保存的モデルが保存的モデルを上回るのか?
- RQ5正規化αセンタリティを計算する単純で解析的根拠を持つアルゴリズムは、現実世界のソーシャルネットワークにおける影響力を持つユーザーを効果的に予測できるか?
主な発見
- 正規化αセンタリティはDiggにおける実証的影響力測定値と0.92の相関を示し、他のモデルを著しく上回っている。
- 正規化αセンタリティの再現率は0.76であり、上位100名の実証的影響力を持つユーザーのうち76%がモデルの上位100名に正しく予測されていることを意味する。
- インデグリーセンタリティの再現率は0.60である一方、PageRankと媒介性センタリティはそれぞれ0.29および0.21にとどまっている。
- クロージネスセンタリティとグラフセンタリティは低相関(0.116および0.097)を示し、予測力が低いことが示された。
- センドラークは中程度の相関(0.407)を示したが、依然として正規化αセンタリティに劣っている。
- 本研究では、情報伝搬のような非保存的ダイナミクスを持つネットワークでは、非保存的モデルがより適していることが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。