[论文解读] The NetMob23 Dataset: A High-resolution Multi-region Service-level Mobile Data Traffic Cartography
本论文介绍 NetMob23,这是一个开放的数据集,涵盖20个法国大都会区的高分辨率、服务级移动数据流量,覆盖68个应用,77天,15分钟粒度,以及100x100 m2 的空间网格。
Digital sources have been enabling unprecedented data-driven and large-scale investigations across a wide range of domains, including demography, sociology, geography, urbanism, criminology, and engineering. A major barrier to innovation is represented by the limited availability of dependable digital datasets, especially in the context of data gathered by mobile network operators or service providers, due to concerns about user privacy and industrial competition. The resulting lack of reference datasets curbs the production of new research methods and results, and prevents verifiability and reproducibility of research outcomes. The NetMob23 dataset offers a rare opportunity to the multidisciplinary research community to access rich data about the spatio-temporal consumption of mobile applications in a developed country. The generation process of the dataset sets a new quality standard, leading to information about the demands generated by 68 popular mobile services, geo-referenced at a high resolution of $100 imes100$ $m^2$ over 20 metropolitan areas in France, and monitored during 77 consecutive days in 2019.
研究动机与目标
- 激发对开放、高质量移动网络数据的需求,超越传统的话单(CDRs)。
- 提供一个覆盖多个大都市区、映射到高分辨率空间网格的68项服务的服务级流量数据集。
- 展示在保留隐私的同时实现丰富时空分析的生成工作流。
- 提供数据表示(空间和流量)及配套工具,促进再使用和可重复性。
提出的方法
- 使用LTE/EPC网络探针在eNodeB处收集每个服务的上行和下行流量。
- 在网络核心通过专有分类器将流量流与68个服务相关联。
- 在每个eNodeB按15分钟间隔聚合流量并归一化以去除绝对流量,从而保持可比性。
- 通过使用基于Bayes的位置信息概率 p(l|i) 将 eNodeB 流量分布到 100x100 m2 网格来构建高分辨率的空间地图。
- 将每个大都会区的空间数据表示为 GeoJSON,并提供基于网格块的文本格式;提供用于处理的 Python 笔记本。
- 在 GDPR 下确保隐私合规,现场处理并聚合数据以防止再识别。

实验结果
研究问题
- RQ1如何将基站流量映射到高分辨率地理网格的服务级移动数据流量?
- RQ2在发达国家的多个大都市区,针对多样化的移动服务集,其时空流量结构如何?
- RQ3在生产网络流量中出现了哪些异常或非典型模式,它们如何影响分析?
- RQ4哪些数据表示和工具最能支持此类数据集的可重复性和跨领域研究?
主要发现
- NetMob23 提供 68 项服务的流量数据,总体约占 Orange France 移动数据流量的约 70%。
- 数据集包含超过 870,000 个高分辨率网格单元,每个eNodeB覆盖 60 km2,聚合为 15 分钟的时间步长。
- 可观测并记录了跨城市和跨日的网络中断和特定服务事件等异常情形(如全国性中断、区域性问题)。
- 时序分析揭示应用之间的多样化使用模式,上传/下载比随应用和城市而异。
- 空间分析显示每个应用的地理分布具有明显差异,娱乐类应用更广泛,生产力类应用集中在办公区域。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。