QUICK REVIEW
[论文解读] Undefined By Data: A Survey of Big Data Definitions
Jonathan S. Ward, Adam Barker|arXiv (Cornell University)|Sep 20, 2013
Big Data Technologies and Applications被引用 356
一句话总结
本文综述并分析了来自学术界、产业界和媒体的20多个关于大数据的定义,识别出重复出现的主题,如数据量、速度、多样性、真实性、复杂性以及技术应用。本文提出一个统一的定义:大数据是指使用高级技术(如NoSQL、MapReduce和机器学习)对大规模或复杂数据集进行存储与分析,强调该术语具有上下文依赖性,且缺乏单一一致的标准。
ABSTRACT
The term big data has become ubiquitous. Owing to a shared origin between academia, industry and the media there is no single unified definition, and various stakeholders provide diverse and often contradictory definitions. The lack of a consistent definition introduces ambiguity and hampers discourse relating to big data. This short paper attempts to collate the various definitions which have gained some degree of traction and to furnish a clear and concise definition of an otherwise ambiguous term.
研究动机与目标
- 解决学术界、产业界和媒体之间对大数据缺乏一致、统一定义的问题。
- 分析并分类自2011年以来出现的多样化且常相互矛盾的大数据定义。
- 在现有定义中识别出共同因素,如数据量、复杂性和技术应用。
- 基于多方利益相关者的综合洞察,提出一个整合的、可操作的大数据定义。
- 通过区分数据规模、复杂性和技术需求,澄清大数据话语中的模糊性。
提出的方法
- 系统性地收集并审查了来自Gartner、NIST、IBM、Oracle、Intel、Microsoft以及MIKE2.0项目等主要组织的20多个大数据定义。
- 根据其核心组成部分对定义进行分类:三V(数据量、速度、多样性)、增加真实性,或聚焦于技术与价值生成。
- 利用Google Trends数据分析相关技术的发展趋势,识别出Hadoop、NoSQL、机器学习和数据分析等关键工具。
- 评估计算复杂性和系统限制的作用,参考NIST的定义指出大数据超出传统系统处理能力。
- 将研究发现综合为一个多因素定义,强调数据量、复杂性和技术应用,同时承认该术语具有动态演变和上下文依赖的特性。
- 使用对比分析突出不同定义之间的矛盾与重叠,特别是关于量化标准和适用阈值的问题。
实验结果
研究问题
- RQ1在学术界、产业界和媒体中,哪些是被最广泛引用和最具影响力的大数据定义?
- RQ2不同定义在数据量、多样性、速度、真实性、复杂性或技术基础设施方面的侧重点有何差异?
- RQ3现有定义在多大程度上依赖定性描述而非定量阈值?
- RQ4Hadoop、NoSQL、机器学习和MapReduce等技术在界定大数据概念边界方面发挥什么作用?
- RQ5能否从现有定义的综合中推导出一个统一且实用的大数据定义?其应包含哪些因素?
主要发现
- ‘大数据’这一术语缺乏单一、一致的定义,已在各利益相关方之间识别出20多个不同定义,导致话语中存在显著模糊性。
- 被引用最广泛的框架——Gartner的三V(数据量、速度、多样性)——最初于2001年提出,早于当前的大数据趋势,但至今仍被广泛引用。
- IBM等机构后来增加了‘真实性’,以应对数据可信度和不确定性问题,凸显了数据质量与可靠性的日益重要。
- Oracle将大数据定义为将非结构化数据源(如社交媒体、传感器)整合到传统关系型数据库中,强调基础设施与价值生成。
- Intel提供了罕见的定量基准,指出每周平均300TB数据为大数据的阈值,尽管该数据基于合作伙伴调查,而非普遍标准。
- Microsoft的定义强调需要先进的计算能力以及机器学习和人工智能等技术,将大数据视为一种技术运动,而不仅仅是数据规模现象。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。