[论文解读] Towards Data-centric Graph Machine Learning: Review and Outlook
一个全面的综述,界定了数据中心化图机器学习(DC-GML)框架、分类法以及在图数据生命周期中的未来方向,包括数据收集、探索、改进、利用和维护。
Data-centric AI, with its primary focus on the collection, management, and utilization of data to drive AI models and applications, has attracted increasing attention in recent years. In this article, we conduct an in-depth and comprehensive review, offering a forward-looking outlook on the current efforts in data-centric AI pertaining to graph data-the fundamental data structure for representing and capturing intricate dependencies among massive and diverse real-life entities. We introduce a systematic framework, Data-centric Graph Machine Learning (DC-GML), that encompasses all stages of the graph data lifecycle, including graph data collection, exploration, improvement, exploitation, and maintenance. A thorough taxonomy of each stage is presented to answer three critical graph-centric questions: (1) how to enhance graph data availability and quality; (2) how to learn from graph data with limited-availability and low-quality; (3) how to build graph MLOps systems from the graph data-centric view. Lastly, we pinpoint the future prospects of the DC-GML domain, providing insights to navigate its advancements and applications.
研究动机与目标
- 在图数据背景下定义并阐明数据中心化 AI 的意义。
- 提出涵盖图数据生命周期(收集、探索、改进、利用、维护)的 DC-GML 框架。
- 提供图数据中心化方法和 MLOps 考量的分类法与评审。
- 解决挑战并勾画 DC-GML 研究与应用的未来方向。
提出的方法
- 介绍 DC-GML 框架及对图数据生命周期阶段的分类覆盖。
- 对图数据的改进、利用和图 MLOps 组件进行分类。
- 回顾用于图结构增强、特征增强和扩散的技术。
- 讨论引导数据中心化图 ML 研究与实践的核心问题(Q1–Q3)。
- 综合提出 DC-GML 的开放挑战和未来方向。
实验结果
研究问题
- RQ1Q1:如何提升图数据的可用性和质量?
- RQ2Q2:在有限可用性和低质量的图数据下如何学习?
- RQ3Q3:如何从数据中心化视角构建图 MLOps 系统?
主要发现
- 首次综述聚焦于专门面向图结构数据的数据中心化 AI。
- 提供跨越图数据生命周期的 DC-GML 的系统性分类法。
- 概述实际的图数据改进、利用和图 MLOps 策略。
- 讨论引导 DC-GML 研究与实践的三个核心问题。
- 指出 DC-GML 的开放挑战与未来有潜力的方向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。