QUICK REVIEW

[论文解读] Large-Scale Multi-objective Influence Maximisation with Network Downscaling

Giovanni Iacca, Doina Bucur|arXiv (Cornell University)|Jan 1, 2022

Complex Network Analysis Techniques参考文献 40被引用 4

一句话总结

本文提出了一种网络下采样方法，通过多目标进化算法（MOEA）加速大规模多目标影响最大化问题。通过在保持网络结构特性的前提下对复杂网络进行下采样，并利用PageRank等中心性度量方法进行解的上采样，该方法在节点数约50k的网络上实现了与CELF相比高达82%的运行时间减少，同时保持了接近最优的影响传播效果。

ABSTRACT

Finding the most influential nodes in a network is a computationally hard problem with several possible applications in various kinds of network-based problems. While several methods have been proposed for tackling the influence maximisation (IM) problem, their runtime typically scales poorly when the network size increases. Here, we propose an original method, based on network downscaling, that allows a multi-objective evolutionary algorithm (MOEA) to solve the IM problem on a reduced scale network, while preserving the relevant properties of the original network. The downscaled solution is then upscaled to the original network, using a mechanism based on centrality metrics such as PageRank. Our results on eight large networks (including two with $\sim$50k nodes) demonstrate the effectiveness of the proposed method with a more than 10-fold runtime gain compared to the time needed on the original network, and an up to $82\%$ time reduction compared to CELF.

研究动机与目标

解决使用元启发式算法求解大规模多目标影响最大化（IM）问题时计算成本过高的问题。
克服现有MOEAs在节点数超过10^5的网络上变得不可行的可扩展性限制。
提出一种新型的基于输入的预处理方法，在不直接改进算法的前提下减小问题规模。
通过基于中心性的映射方法，准确地将下采样网络中的种子集上采样回原始网络，以保持原始网络中的解的质量。
在具有不同规模和拓扑结构的真实世界网络上，包括节点数约50k的网络，验证该方法的有效性。

提出的方法

应用基于社区的网络下采样方法，采用可配置的缩放因子（s ∈ {2, 4, 8}），在保持关键结构特性（如社区数量和度分布）的同时减小网络规模。
在下采样网络上使用NSGA-II作为MOEA求解影响最大化问题，同时优化影响传播范围（最大化）和种子集大小（最小化）。
利用节点中心性度量（特别是PageRank和加权中心性WC）将下采样网络中选定的种子集映射回原始网络，以识别对应的高影响力节点。
通过比较在原始网络上直接运行MOEA所获得的超体积（HV）和影响传播范围，评估上采样解的质量。
将激活尝试次数作为实际运行时间的代理指标，测量在多次运行和不同缩放因子下的计算成本。
基于在约300代后检测到超体积平台期，采用收敛性终止条件，进一步减少运行时间而不牺牲解的质量。

实验结果

研究问题

RQ1网络下采样能否在大规模网络中保留准确影响最大化所必需的结构特性？
RQ2所提出的下采样与上采样流程在与直接在原始网络上运行MOEA相比，能在多大程度上保持解的质量？
RQ3增加缩放因子如何影响解的质量与计算效率之间的权衡？
RQ4在将种子集从下采样网络上采样到原始网络时，哪种中心性度量（PageRank与WC）能提供最准确和高效的上采样效果？
RQ5该方法在大规模网络上能否在影响传播范围和运行时间方面优于经典启发式算法CELF？

主要发现

与直接在原始网络上运行MOEA相比，该方法将运行时间减少了10倍以上，在大规模网络上相比CELF的激活尝试次数最多减少82%。
从下采样网络上采样得到的解，其超体积（HV）达到原始网络上MOEA所获HV的93%至97%，表明解的质量接近最优。
PageRank在上采样准确性方面始终优于WC，在s = 2时与原始网络解的相关性范围为[0.93, 1.0]，且在所有缩放因子下均保持高度一致性。
该方法在多种网络中均表现出色，包括两个节点数约50k的网络（soc-gemsec和soc-brightkite），在影响传播范围上优于确定性算法CELF，同时显著减少了计算资源消耗。
在约300代后观察到超体积的收敛平台期，表明早期终止可进一步提升运行时间收益，且不损害解的质量。
解的质量与运行时间之间的权衡关系具有明确的量化特征：更高的缩放因子（如s = 32）可进一步减少运行时间，但会导致解质量的可测量下降，证实了清晰的可扩展性-质量权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。