[论文解读] Layered Label Propagation: A MultiResolution Coordinate-Free Ordering for Compressing Social Networks
本文提出分层标签传播(LLP),一种可扩展的、无需坐标的节点排序算法,通过多分辨率聚类显著提升社交网络的图压缩效果。通过利用节点邻域中的局部性和相似性,而无需依赖外部元数据,LLP在 uk 数据集上的每条边比特数低至 1.8,超越了最先进的外在方法,实现了对百亿节点图的主内存分析。
We continue the line of research on graph compression started with WebGraph, but we move our focus to the compression of social networks in a proper sense (e.g., LiveJournal): the approaches that have been used for a long time to compress web graphs rely on a specific ordering of the nodes (lexicographical URL ordering) whose extension to general social networks is not trivial. In this paper, we propose a solution that mixes clusterings and orders, and devise a new algorithm, called Layered Label Propagation, that builds on previous work on scalable clustering and can be used to reorder very large graphs (billions of nodes). Our implementation uses overdecomposition to perform aggressively on multi-core architecture, making it possible to reorder graphs of more than 600 millions nodes in a few hours. Experiments performed on a wide array of web graphs and social networks show that combining the order produced by the proposed algorithm with the WebGraph compression framework provides a major increase in compression with respect to all currently known techniques, both on web graphs and on social networks. These improvements make it possible to analyse in main memory significantly larger graphs.
研究动机与目标
- 解决传统基于URL的节点排序在大规模社交网络中不适用的问题。
- 开发一种无需坐标的内在节点排序方法,以保留图结构并实现高效压缩。
- 在WebGraph框架中,将网络图和社交网络的压缩比提升至超越当前最先进技术水平。
- 通过更优的压缩降低内存占用,实现对百亿节点图的高效可扩展处理。
- 证明基于内在聚类的排序可优于真实社交网络数据集中基于外在URL的排序。
提出的方法
- 提出分层标签传播(LLP),一种多分辨率聚类算法,通过在节点间传播标签来识别不同尺度的社区。
- 采用任务分解技术,实现在多核架构上的并行执行,使处理超过 6 亿个节点的图仅需数小时。
- 在LLP排序的图上应用WebGraph压缩框架,利用相似性和局部性特性以最小化每条边的比特数。
- 将分层聚类与标签传播相结合,生成反映结构邻域的节点排序,无需外部坐标。
- 通过迭代优化和间隙代价分析,最小化每条边的比特数,以优化排序效果。
- 将LLP与基线排序方法(BFS、随机、Gray、shingle)及其他聚类方法(APM、APM+Gray)进行比较,以评估压缩性能。
实验结果
研究问题
- RQ1无需坐标的内在节点排序方法是否能在社交网络中实现优于外在方法(如字典序URL排序)的压缩效果?
- RQ2多分辨率聚类在多大程度上能提升节点排序中的局部性和相似性,从而改善图压缩?
- RQ3所提出的LLP算法在保持高效率的同时,能否扩展至百亿节点图?
- RQ4在多样化的社交网络和网页图数据集上,结合LLP与WebGraph框架后,可实现的压缩比提升幅度是多少?
- RQ5缺乏外部元数据(如URL)是否会影响有效压缩?还是仅依靠内在结构特性即可实现更优结果?
主要发现
- 在 uk 数据集上,LLP将每条边比特数降至 1.8,相比BFS基线的 2.84 降低 33%。
- 在 LiveJournal 数据集上,LLP实现 10.90 比特/条边,相比BFS基线(15.10 比特/条边)减少 28%。
- 在 in 数据集上,LLP实现 2.46 比特/条边,相比BFS基线(3.51 比特/条边)减少 30%,且比随机排序提升 15%。
- 在 eu 数据集上,LLP将每条边比特数降至 3.90,相比BFS(4.93 比特/条边)提升 21%,并实现相比自然顺序的 303% 压缩增益。
- LLP与BV压缩框架结合后,在 uk 数据集上实现最高 1.21 比特/条边的压缩率——优于Apostolico–Drovandi方法在最大压缩下的 1.44 比特/条边。
- 实验表明,LLP在所有测试数据集上均持续优于其他排序方式(BFS、随机、shingle、Gray),比特/条边的改进幅度在 10% 至 100% 以上不等。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。