QUICK REVIEW
[论文解读] Efficient Algorithms for Citation Network Analysis
Vladimir Batagelj|arXiv (Cornell University)|Sep 14, 2003
Rough Sets and Fuzzy Logic参考文献 11被引用 222
一句话总结
本文提出了计算Hummon和Doreian的引文网络弧权重(SPLC和SPNP)的线性时间算法,实现了对大规模引文网络的高效分析。该方法能高效识别主路径和关键子网络,已在SOM和美国专利网络上得到验证,显著提升了大规模网络的可扩展性。
ABSTRACT
In the paper very efficient, linear in number of arcs, algorithms for determining Hummon and Doreian's arc weights SPLC and SPNP in citation network are proposed, and some theoretical properties of these weights are presented. The nonacyclicity problem in citation networks is discussed. An approach to identify on the basis of arc weights an important small subnetwork is proposed and illustrated on the citation networks of SOM (self organizing maps) literature and US patents.
研究动机与目标
- 开发用于在大规模网络中计算引文网络弧权重(SPLC和SPNP)的可扩展算法。
- 解决具有数千个节点的引文网络在主路径分析中的计算瓶颈问题。
- 提供一种实用方法,用于识别大规模引文网络中的结构重要子网络。
- 支持对现实世界引文网络(如美国专利和SOM文献)的分析。
- 将算法实现并集成到Pajek软件中,以实现对网络分析的可访问性。
提出的方法
- 提出一种线性时间算法(O(m)),用于计算SPLC和SPNP弧权重,其中m为弧的数量。
- 利用无环引文网络的拓扑排序,实现对路径的高效动态规划。
- 应用逆关系R^inv,从最大元素到最小元素计算反向路径计数。
- 采用传递闭包和自反闭包(Q^*)来建模网络中的可达性和路径存在性。
- 引入“预印本转换”以简化网络结构,便于算法处理。
- 在Pajek中实现算法,Pajek是一款支持非商业用途的基于Windows的大规模网络分析工具。
实验结果
研究问题
- RQ1如何在大规模引文网络中高效计算SPLC和SPNP弧权重?
- RQ2在引文网络中计算主路径权重的计算复杂度是多少?
- RQ3所提出的算法能否扩展到包含数十万节点和数百万条弧的引文网络?
- RQ4如何利用弧权重在引文网络中识别最重要的子网络?
- RQ5SPLC和SPNP权重在无环引文网络中表现出哪些理论特性?
主要发现
- 所提出的算法以O(m)时间计算SPLC和SPNP权重,与弧的数量呈线性关系。
- 该方法成功识别出SOM引文网络和美国专利网络中的主路径及关键子网络。
- 算法已实现并集成到Pajek中,支持对包含最多370万个节点和1650万条弧的网络进行分析。
- 理论分析证实,在无环引文网络中,每个节点均可从最小元素到达,并能到达最大元素。
- 该方法可处理来自Web of Science和HistCite数据的真实引文网络,包括最多8,843个节点和41,609条弧的网络。
- 该算法支持识别循环成分(例如,Zewail网络中存在38个大小为2的强连通分量),尽管核心计算假设网络为无环。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。