[论文解读] Data Mesh: a Systematic Gray Literature Review
本论文对114份灰色文献进行系统性综述,以界定数据网格、识别其四项原则、将发现映射到面向服务架构(SOA)的参考架构,并概述研究挑战。
Data mesh is an emerging domain-driven decentralized data architecture that aims to minimize or avoid operational bottlenecks associated with centralized, monolithic data architectures in enterprises. The topic has picked the practitioners' interest, and there is considerable gray literature on it. At the same time, we observe a lack of academic attempts at defining and building upon the concept. Hence, in this article, we aim to start from the foundations and characterize the data mesh architecture regarding its design principles, architectural components, capabilities, and organizational roles. We systematically collected, analyzed, and synthesized 114 industrial gray literature articles. The review provides insights into practitioners' perspectives on the four key principles of data mesh: data as a product, domain ownership of data, self-serve data platform, and federated computational governance. Moreover, due to the comparability of data mesh and SOA (service-oriented architecture), we mapped the findings from the gray literature into the reference architectures from the SOA academic literature to create the reference architectures for describing three key dimensions of data mesh: organization of capabilities and roles, development, and runtime. Finally, we discuss open research issues in data mesh, partially based on the findings from the gray literature.
研究动机与目标
- 从从业者文献中定义数据网格及其四项指导原则(数据即产品、数据的域所有权、自助数据平台、联邦计算治理)。
- 识别在行业环境中采用数据网格的收益、关切及组织适用性。
- 通过将灰色文献发现映射到SOA架构,开发数据网格的参考架构(能力/角色的组织、开发、运行时)。
- 突出数据网格的开放研究挑战,以引导学术研究。
提出的方法
- 遵循适用于GLRs的灰色文献综述指南(改编自Garousi等人,以及Kitchenham/Charters),以确保系统性。
- 使用定义查询:"Data Mesh" 与 "Decentralized Data Architecture",通过Google检索收集114份灰色文献(2019–2022)。
- 应用纳入/排除和质量标准;与Cohen’s Kappa = 0.79进行评估者间一致性。
- 在Atlas.ti中使用结构化和描述性编码进行定性分析;迭代地开发类别与主题。
- 将灰色文献发现映射到面向服务架构(SOA)参考架构,以构建三种数据网格参考架构。
- 通过将从业者的挑战与SOA和数据管理文献联系起来,识别未解的研究问题。

实验结果
研究问题
- RQ1RQ1:数据网格是什么,为什么需要它,重点关注四个设计原则(数据即产品、域所有权、自助平台、联邦治理)。
- RQ2RQ2:采用数据网格的收益与关切以及实施挑战是什么?
- RQ3RQ3:组织应如何构建数据网格,能否通过映射到SOA架构来建立参考架构?
- RQ4RQ4:基于从业者文献,关于数据网格的研究挑战有哪些?
主要发现
- 数据网格是一种面向域的分布式架构,用于在规模化环境中管理分析数据,将单一的数据空间分解为与域对齐的数据产品。
- 数据产品具备组成要素(数据、元数据、代码、接口、基础设施)以及两种类型(原子型与复合型)。
- 八项特征定义高质量的数据产品(可发现、可互操作、本地可访问、具有自描述性、可理解、可安全、可信、具价值)。
- 联邦计算治理在全球性标准与本地域自治之间实现平衡,以确保互操作性与合规性。
- 自助数据平台和平台工具支持域团队构建和运营数据产品;自动化与治理是实现扩展性的核心。
- 灰色文献被映射到三种基于SOA的参考架构,帮助在开发与运行时方面进行组织设计,并突出研究挑战。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。