Skip to main content
QUICK REVIEW

[论文解读] The Internet AS-Level Topology: Three Data Sources and One Definitive Metric

Priya Mahadevan, Dmitri Krioukov|ArXiv.org|Dec 24, 2005
Network Traffic and Congestion Control参考文献 38被引用 291
一句话总结

本文利用一组全面的度量指标,从三个主要数据源——traceroute(skitter)、BGP 和 WHOIS——分析互联网 AS 级拓扑。研究识别出联合度分布(JDD)是最具决定性的度量指标,可解释其他拓扑属性的变化,并发布了数据集和工具以支持可复现研究。

ABSTRACT

We calculate an extensive set of characteristics for Internet AS topologies extracted from the three data sources most frequently used by the research community: traceroutes, BGP, and WHOIS. We discover that traceroute and BGP topologies are similar to one another but differ substantially from the WHOIS topology. Among the widely considered metrics, we find that the joint degree distribution appears to fundamentally characterize Internet AS topologies as well as narrowly define values for other important metrics. We discuss the interplay between the specifics of the three data collection mechanisms and the resulting topology views. In particular, we show how the data collection peculiarities explain differences in the resulting joint degree distributions of the respective topologies. Finally, we release to the community the input topology datasets, along with the scripts and output of our calculations. This supplement should enable researchers to validate their models against real data and to make more informed selection of topology data sources for their specific needs.

研究动机与目标

  • 比较并对比从三种主要数据源(skitter(traceroute)、BGP 和 WHOIS)获取的互联网 AS 级拓扑的结构特性。
  • 识别出最能根本刻画这些拓扑视图之间差异的拓扑度量指标。
  • 解释数据采集方法如何影响观察到的拓扑特征,特别是联合度分布。
  • 发布整理后的数据集、脚本和结果,以支持可复现研究和模型验证。
  • 指导研究人员根据其特定的建模或分析需求,选择合适的数据源。

提出的方法

  • 使用三种数据源(skitter(traceroute)、RouteViews 的 BGP 路由表、WHOIS 数据库)的原始数据构建 AS 级图。
  • 过滤掉私有 AS 和 AS 集,以减少歧义并提高图的保真度。
  • 将 2004 年 3 月的每日 BGP 快照合并为单个静态(BGP 表)和动态(BGP 更新)图。
  • 计算 15 项拓扑度量,包括度分布、联合度分布(JDD)、聚类、富集俱乐部、距离和介数。
  • 使用统计分析关联 JDD 与其他度量指标,重点关注平均度和度相关系数作为关键汇总统计量。
  • 发布所有输入图、图表、数据文件和分析脚本,以促进透明度和可复现性。

实验结果

研究问题

  • RQ1当从 skitter、BGP 和 WHOIS 数据源获取时,AS 级图的拓扑特性有何不同?
  • RQ2哪项拓扑度量最能根本刻画这三种互联网视图之间的结构差异?
  • RQ3数据采集方法(例如,主动探测 vs. 控制平面 vs. 管理平面)在多大程度上影响观察到的联合度分布?
  • RQ4联合度分布在多大程度上可以解释三种数据源之间其他拓扑度量的相对排序?
  • RQ5哪种数据源能提供最具有代表性且完整的实际互联网 AS 拓扑视图?

主要发现

  • 联合度分布(JDD)是最根本的度量指标,平均度和度相关系数可解释所有其他拓扑度量在三种数据源之间的相对排序。
  • BGP 表和 skitter(traceroute)拓扑在结构上高度相似,而 WHOIS 拓扑则显著不同,尤其在度分布和聚类方面。
  • BGP 表图包含 17,446 个节点和 40,805 条边,平均度为 4.68;而 WHOIS 图包含 7,485 个节点和 56,949 条边,平均度为 15.22。
  • 基于 JDD 的度相关系数(r)分别为:skitter 为 -0.24,BGP 表为 -0.19,WHOIS 为 -0.04,表明从 skitter 到 WHOIS 的非匹配性逐渐增强。
  • 平均聚类系数在 WHOIS 中最高(0.49),其次为 skitter(0.46),在 BGP 表中最低(0.29),反映出局部连通性的差异。
  • 富集俱乐部指数分别为:skitter 为 1.48,BGP 表为 1.45,WHOIS 为 1.69,表明 WHOIS 中富集俱乐部效应更强,可能由于高阶 AS 的过度报告。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。