[论文解读] Greening Big Data Networks: The Impact of Veracity
本文提出了一种绿色大数据网络架构,通过在通往集中式数据中心的路径上,于中间处理节点(PNs)逐步处理和清洗数据,同时优化备份存储,从而提升能效。通过应用混合整数线性规划(MILP)模型处理数据真实性,该方法相比传统非渐进式方法,网络功耗最高可降低52%,尤其在最优存储与处理约束条件下表现显著。
The continuous increase in big data applications, in number and types, creates new challenges that should be tackled by the green ICT community. Big data is mainly characterized by 4 Vs volume, variety, velocity, and veracity. Each V poses a number of challenges that have implications on the energy efficiency of the underlying networks carrying the big data. Addressing the veracity of the data is a more serious challenge to data scientists, since they need to distinguish between the meaningful data and the dirty data. In this article, we investigate the impact of big data veracity on greening IP by developing a Mixed Integer Linear Programming, MILP, model that encapsulates the distinctive features of veracity. In our analyses, the big data network was greened by cleansing the raw big data before processing and then progressively processing the cleansed big data at strategic locations, dubbed processing nodes, PNs. The PNs are built into the network along the path from the sources to the centralized datacenters. At each PN, the cleansed data was processed and smaller volume of useful information was extracted progressively, thereby, reducing the network power consumption. Furthermore, a backup for the cleansed data was stored in an optimally selected Backup Node, BN. We evaluated the network power saving that can be achieved by a green big data network compared to the classical non-progressive approach. We obtained up to 52 percent network power savings, on average, in the green big data approach compared to the classical approach.
研究动机与目标
- 解决因在网络中传输原始、未经处理的大数据而导致的能效低下问题。
- 研究数据真实性(特别是数据质量与清洗)对大数据系统中网络功耗的影响。
- 设计一种绿色大数据网络架构,通过在关键节点渐进式处理数据,最小化能源消耗。
- 优化处理节点(PNs)与备份节点(BNs)的部署位置,以在确保数据完整性和可用性的前提下降低网络功耗。
- 评估在不同数据真实性条件下,处理节点存储容量限制与整体网络节能之间的权衡。
提出的方法
- 开发一种混合整数线性规划(MILP)模型,用于优化IP over WDM网络中的数据处理、存储与备份节点部署。
- 在网络路径上引入处理节点(PNs),其处理与存储容量有限,位于数据源与中心数据中心之间。
- 在PNs处执行数据清洗,过滤掉脏数据后进行渐进式处理,从而减少传输的数据量。
- 优化单个备份节点(BN)的选择,用于存储清洗后数据块的副本,以保障可靠性和未来访问。
- 对PNs的存储容量与处理负载施加约束,以反映实际部署中的限制条件。
- 基于每个节点的数据量、传输与处理情况,建模网络功耗,并对比经典方法与绿色方法的差异。
实验结果
研究问题
- RQ1数据真实性如何影响大数据网络中的网络功耗?
- RQ2在中间处理节点(PNs)处渐进式处理清洗后的数据,而非直接将原始数据发送至数据中心,网络功耗最大可降低多少?
- RQ3处理节点(PNs)的存储容量限制如何影响处理资源的利用率与整体节能效果?
- RQ4为清洗后的数据部署备份节点对网络功耗与能效有何影响?
- RQ5β(每个PN处理的数据块数量)的选择如何影响处理负载、存储使用与网络功耗节省之间的权衡?
主要发现
- 在无备份模式下,绿色大数据方法相比经典方法,平均网络功耗最高可降低52%。
- 在部署备份节点后,网络功耗节省最高达41%,表明可靠性与能效之间存在权衡。
- 当PNs存储容量受限时,功耗节省最高降至40%(有备份)与51%(无备份),而存储充足时分别为45%与58%。
- 即使处理能力有余量,由于存储限制导致PNs过早被跳过,PNs的处理利用率仍保持在较低水平(约16 GHz)。
- 模型表明,存储约束显著减少了本地处理的清洗后数据块数量,导致网络传输量与功耗上升。
- 为清洗后数据优化备份节点的部署位置可降低网络功耗,但在PNs存储受限条件下,该优势被削弱。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。