[论文解读] Algorithm and approaches to handle large Data- A Survey
本综述(2013年)回顾了1994年至2013年间用于管理与分析大规模数据的算法和架构方法,特别聚焦于大数据环境。它概述了关键的数据处理技术,识别了处理结构化与非结构化数据的关键工具,并全面总结了为克服传统数据库在基因组学和气象学等领域的局限性而发展出的演进解决方案。
Data mining environment produces a large amount of data, that need to be analyzed, patterns have to be extracted from that to gain knowledge. In this new era with boom of data both structured and unstructured, in the field of genomics, meteorology, biology, environmental research and many others, it has become difficult to process, manage and analyze patterns using traditional databases and architectures. So, a proper architecture should be understood to gain knowledge about the Big Data. This paper presents a review of various algorithms from 1994-2013 necessary for handling such large data set. These algorithms define various structures and methods implemented to handle Big Data, also in the paper are listed various tool that were developed for analyzing them.
研究动机与目标
- 应对数据密集型领域(如基因组学、气象学和环境研究)中处理海量、多样化数据集的日益增长的挑战。
- 识别传统数据库系统在管理大规模异构数据(结构化与非结构化)方面的局限性。
- 调查并分类1994年至2013年间为实现可扩展数据处理而开发的关键算法与数据处理技术。
- 突出强调为支持跨多样化应用领域的大数据高效分析而设计的关键工具与框架。
- 为理解现代分布式系统兴起之前大数据处理在架构与算法方面的演进提供基础参考。
提出的方法
- 对1994年至2013年间数据管理领域的学术文献与技术发展的系统性回顾。
- 根据算法在大规模数据集存储、处理与模式提取中的作用对算法进行分类。
- 对数据处理架构进行分类,包括适用于大数据的分布式与并行计算模型。
- 识别并描述该时期为支持大规模数据分析而开发的关键工具与平台。
- 分析数据类型(结构化与非结构化),突出针对每类数据的专用算法。
- 综合分析算法设计与系统架构的演进趋势,以应对大数据工作负载中的可扩展性与性能挑战。
实验结果
研究问题
- RQ11994年至2013年间,为管理大规模数据而开发了哪些算法与架构创新?
- RQ2现代数据处理技术与传统数据库系统在处理大数据方面有何不同?
- RQ3在此期间出现了哪些工具与框架以支持可扩展的数据分析?
- RQ4处理非结构化与半结构化数据面临哪些关键挑战,又是如何解决的?
- RQ5数据处理模型的演进如何促进数据密集型应用中可扩展性与性能的提升?
主要发现
- 传统数据库系统在处理基因组学和气象学等领域产生的大数据的体量、速度与多样性方面表现不足。
- 分布式与并行处理模型的出现,相比单体架构,实现了更可扩展、更高效的数据分析。
- 为处理传统系统能力之外的大规模数据集,开发了专门用于模式提取与数据挖掘的算法。
- 该时期引入了一系列工具与框架以支持可扩展的数据处理,尽管摘要中未详细列出具体工具名称。
- 该综述识别出数据管理范式从集中式向去中心化、可扩展架构的明显转变,以满足大数据需求。
- 结构化与非结构化数据处理技术的整合成为关键焦点,推动了更灵活、更具适应性的数据处理解决方案的发展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。