[论文解读] Learning Influence Functions from Incomplete Observations
本文提出了一种从不完整的级联观测中学习社交网络中影响函数的框架,其中节点激活随机缺失。通过将缺失数据建模为变换后的图,并使用基于可达性的特征参数化及修改后的损失函数,该方法在DIC、DLT和CIC扩散模型下实现了适当的和不适当的PAC可学习性,尽管存在显著缺失,但在真实数据上的估计误差降低了近20%。
We study the problem of learning influence functions under incomplete observations of node activations. Incomplete observations are a major concern as most (online and real-world) social networks are not fully observable. We establish both proper and improper PAC learnability of influence functions under randomly missing observations. Proper PAC learnability under the Discrete-Time Linear Threshold (DLT) and Discrete-Time Independent Cascade (DIC) models is established by reducing incomplete observations to complete observations in a modified graph. Our improper PAC learnability result applies for the DLT and DIC models as well as the Continuous-Time Independent Cascade (CIC) model. It is based on a parametrization in terms of reachability features, and also gives rise to an efficient and practical heuristic. Experiments on synthetic and real-world datasets demonstrate the ability of our method to compensate even for a fairly large fraction of missing observations.
研究动机与目标
- 解决在级联中节点激活不完整观测时学习影响函数的挑战,这是现实社交网络中的常见问题。
- 为广泛使用的扩散模型(如DIC和DLT)在不完整观测下建立影响函数的理论PAC可学习性。
- 设计一种高效且实用的学习算法,可在无需完整观测的情况下补偿缺失的激活数据。
- 将理论保证扩展至连续时间模型(CIC),并增强对保留率不确定性的鲁棒性。
- 在合成和真实世界数据集上展示经验有效性,显著优于基线方法。
提出的方法
- 将不完整观测建模为在修改图中的完整观测,其中边权重根据保留率r进行调整,以保持期望的影响传播。
- 使用基于可达性的影响函数参数化方法,受Du等人[3]的启发,将影响表示为从种子集可达节点的函数。
- 基于Natarajan等人[17]优化一种修改后的损失函数,通过降低或调整未观测节点的贡献来考虑缺失激活。
- 通过将不完整观测学习问题转化为变换图中的完整观测学习问题,证明DIC和DLT模型的适当PAC可学习性。
- 通过可达性特征方法,实现DIC、DLT和CIC模型的不适当PAC可学习性,即使对隐藏变量进行边际化在计算上不可行。
- 提供样本复杂度界,其随保留率r的倒数适度增长,表明缺失数据仅适度增加所需样本量。
实验结果
研究问题
- RQ1当节点激活随机缺失时,影响函数能否在不完整观测下实现适当的PAC学习?
- RQ2当观测不完整时,学习影响函数的样本复杂度是否会显著增加?
- RQ3能否为不完整观测下的影响函数学习设计一种高效且实用的学习算法,特别是针对CIC等连续时间模型?
- RQ4该方法对保留率r的不确定性有多鲁棒,尤其是在r未被精确知晓时?
- RQ5该方法在现实级联中能多大程度上补偿大量缺失激活?
主要发现
- 本文在DIC和DLT模型下建立了影响函数的适当PAC可学习性,样本复杂度为˜O(¯r²n³m/ε²),表明不完整观测仅适度增加所需样本量。
- 对于CIC模型,通过可达性特征参数化和修改后的损失函数实现了不适当PAC可学习性,将理论保证扩展至离散时间模型之外。
- 该方法在MemeTracker真实世界数据集上相比最佳基线,估计误差降低了近20%,即使存在大量缺失数据。
- 该方法对保留率r的误估具有鲁棒性,在中等不确定性(例如η ≤ 0.2)下性能保持稳定。
- 理论结果可扩展至真实保留率位于已知区间I = [¯r(1−η), ¯r(1+η)]的情况,附加误差项依赖于η,当不确定性较小时该误差仍较小。
- 实证结果证实,当每个节点的真实保留率在其估计均值附近独立扰动时,性能不会显著下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。