Skip to main content
QUICK REVIEW

[論文レビュー] Learning Influence Functions from Incomplete Observations

Xinran He, Ke Xu|arXiv (Cornell University)|Nov 7, 2016
Bayesian Modeling and Causal Inference被引用数 19
ひとこと要約

本稿では、ノードのアクティベーションがランダムに欠落している不完全なカスケード観測から、社会的ネットワークにおける影響関数を学習するフレームワークを提案する。欠落データを変換されたグラフとしてモデル化し、到達可能性に基づく特徴量パラメータ化と修正された損失関数を用いることで、DIC、DLT、CIC拡散モデルにおける適切および不適切なPAC学習可能性を確立し、実世界のデータにおいて顕著な欠落が見られる状況でも推定誤差を約20%低減する。

ABSTRACT

We study the problem of learning influence functions under incomplete observations of node activations. Incomplete observations are a major concern as most (online and real-world) social networks are not fully observable. We establish both proper and improper PAC learnability of influence functions under randomly missing observations. Proper PAC learnability under the Discrete-Time Linear Threshold (DLT) and Discrete-Time Independent Cascade (DIC) models is established by reducing incomplete observations to complete observations in a modified graph. Our improper PAC learnability result applies for the DLT and DIC models as well as the Continuous-Time Independent Cascade (CIC) model. It is based on a parametrization in terms of reachability features, and also gives rise to an efficient and practical heuristic. Experiments on synthetic and real-world datasets demonstrate the ability of our method to compensate even for a fairly large fraction of missing observations.

研究の動機と目的

  • 実世界のソーシャルネットワークで一般的に見られるノードのアクティベーションが不完全に観測される状況において、影響関数を学習する課題に対処すること。
  • DICやDLTのような広く使われる拡散モデルにおいて、不完全観測下での影響関数の理論的PAC学習可能性を確立すること。
  • 完全な観測が不要な、効率的で実用的な学習アルゴリズムを設計すること。
  • 連続時間モデル(CIC)への理論的保証の拡張およびリテンションレートの不確実性への耐性を示すこと。
  • 合成および実世界のデータセット上で、提案手法の実験的有効性を示し、ベースライン手法に比べ顕著な改善を示すこと。

提案手法

  • 不完全観測を、リテンションレート r に応じてエッジ重みを調整することで、期待される影響伝搬を保つように変換されたグラフにおける完全観測としてモデル化する。
  • Duら[3]にインspiredされた到達可能性特徴量に基づくパラメータ化を用い、シード集合から到達可能なノードの関数として影響を表現する。
  • Natarajan ら[17]に基づく修正された損失関数を最適化し、未観測ノードからの寄与を低減または調整することで、欠落アクティベーションを考慮する。
  • 変換されたグラフにおける完全観測学習に帰着することで、DICおよびDLTモデルにおける適切なPAC学習可能性を証明する。
  • 到達可能性特徴量アプローチを用いて、隠れ変数の周辺化が計算的に不可能な場合でも、DIC、DLT、CICモデルにおける不適切なPAC学習可能性を確立する。
  • リテンションレート r の逆数に比例してやや増加するサンプル複雑度の境界を提供し、欠落データが必要なサンプルサイズをわずかに増加させることを示す。

実験結果

リサーチクエスチョン

  • RQ1ノードのアクティベーションがランダムに欠落している不完全観測下でも、影響関数は適切にPAC学習可能か?
  • RQ2観測が不完全な場合、影響関数の学習におけるサンプル複雑度は顕著に増加するか?
  • RQ3特にCICのような連続時間モデルに対して、効率的で実用的な不完全観測下の影響関数学習アルゴリズムを設計可能か?
  • RQ4リテンションレート r の不確実性、特に r が正確に分かっていない場合に、この手法はどの程度頑健か?
  • RQ5実世界のカスケードにおいて、多数のアクティベーション欠落を補償できるか?

主な発見

  • 本稿では、DICおよびDLTモデルにおける影響関数の適切なPAC学習可能性を確立し、サンプル複雑度 ˜O(¯r²n³m/ε²) を得た。不完全観測がサンプルサイズの必要量をわずかに増加させることを示した。
  • CICモデルに対しては、到達可能性特徴量パラメータ化と修正損失関数を用いて不適切なPAC学習可能性を達成し、離散時間モデルを超える理論的保証を拡張した。
  • MemeTrackerの実世界データセットにおいて、実装された手法は、最も優れたベースラインと比較して推定誤差を約20%低減した。これは顕著な欠落が存在する状況でも成立する。
  • リテンションレート r の誤推定に対しても手法は頑健であり、中程度の不確実性(例:η ≤ 0.2)の下で性能が安定している。
  • 真のリテンションレートが既知の区間 I = [¯r(1−η), ¯r(1+η)] 内にある場合にも理論的結果が拡張可能であり、加法的誤差項は η に依存するが、不確実性が小さい間は小さく保たれる。
  • 実験的結果から、ノードごとに真のリテンションレートが推定平均周辺で独立に摂動されても、性能が顕著に劣化しないことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。