[论文解读] Data Science: Challenges and Directions
本论文综述数据科学作为一个复杂的跨学科领域,概述了 X-复杂性和 X-智能、非 IID 数据挑战,以及朝向类人机器智能的方向。它主张采取系统性、跨学科的方法,将数据转化为知识和可行动的洞见。
While data science has emerged as a contentious new scientific field, enormous debates and discussions have been made on it why we need data science and what makes it as a science. In reviewing hundreds of pieces of literature which include data science in their titles, we find that the majority of the discussions essentially concern statistics, data mining, machine learning, big data, or broadly data analytics, and only a limited number of new data-driven challenges and directions have been explored. In this paper, we explore the intrinsic challenges and directions inspired by comprehensively exploring the complexities and intelligence embedded in data science problems. We focus on the research and innovation challenges inspired by the nature of data science problems as complex systems, and the methodologies for handling such systems.
研究动机与目标
- 将数据科学表征为一个在数据、行为、领域、社会、环境、学习和交付物等方面嵌入 X-复杂性的大系统。
- 识别当前理论和方法在处理大数据复杂性与假设违规方面的局限性。
- 提出一个用于 X-智能和数据到决策转化的框架,以指导学科发展。
- 将非 IID 数据学习作为核心研究挑战,并探讨对理论与实践的影响。
- 讨论数据科学中类人机器智能的前景及其对问题解决的潜在影响。
提出的方法
- 进行全面的文献综述,以识别数据科学问题中的本质复杂性和智能。
- 在多方面将数据科学概念化为具有 X-复杂性和 X-智能的复杂系统。
- 提出从已知 CKI(知识、智能)状态到未知状态的知识向交付的推进,并绘制问题空间(Spaces A-D)。
- 引入一个具有三层结构的景观(数据输入、数据驱动发现、数据输出),并在理解、基础、工程、社会问题和价值等五个研究挑战中展开。
- 讨论假设违规(特别是非 IID 数据)及其对理论、指标和学习的影响。
实验结果
研究问题
- RQ1什么构成一个跨统计、信息学、计算与社会科学整合的跨学科数据科学领域?
- RQ2数据科学问题中嵌入的核心 X-复杂性和 X-智能是什么,它们如何影响问题解决?
- RQ3假设违规,尤其是非 IID 数据,如何挑战当前在数据科学中的理论和方法?
- RQ4哪些战略方向(数据科学格局、对非 IID 的学习,以及类人智能)可以推动数据科学成为一门学科?
- RQ5如何设计数据到决策和行动的过程,以有效将分析转化为决策行动?
主要发现
- 大数据问题是具有嵌入在数据、行为、领域、社会、环境、学习和交付物等方面的 X-复杂性的复杂系统。
- 非 IID 数据学习以及对新理论、算法和指标的需求,是推动数据科学超越基于 IID 的方法的核心。
- 三层数据科学景观(数据输入、数据驱动发现、数据输出)孕育了在理解、基础、工程、社会问题和价值等方面的若干挑战性研究领域。
- 类人机器智能——由好奇心和更广泛的认知过程驱动——可能改变数据科学中的机器思维。
- 大数据中的假设违规需要重新思考数学基础、建模、评估与治理,以确保可获得的洞见可可信、可执行。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。