QUICK REVIEW

[論文レビュー] Algorithm and approaches to handle large Data- A Survey

Chanchal Yadav, Shuliang Wang|arXiv (Cornell University)|Jul 20, 2013

Data Management and Algorithms参考文献 24被引用数 54

ひとこと要約

このサーベイ（2013年）は、1994年から2013年までの間、特にビッグデータの文脈において大規模データの管理および分析のためのアルゴリズムとアーキテクチャ的アプローチをレビューしている。主なデータ処理技術を概説し、構造化済みおよび非構造化データを処理するための重要なツールを特定し、ゲノムや気象学などの分野における従来のデータベースの限界を克服するための進化したソリューションの包括的な概要を提供している。

ABSTRACT

Data mining environment produces a large amount of data, that need to be analyzed, patterns have to be extracted from that to gain knowledge. In this new era with boom of data both structured and unstructured, in the field of genomics, meteorology, biology, environmental research and many others, it has become difficult to process, manage and analyze patterns using traditional databases and architectures. So, a proper architecture should be understood to gain knowledge about the Big Data. This paper presents a review of various algorithms from 1994-2013 necessary for handling such large data set. These algorithms define various structures and methods implemented to handle Big Data, also in the paper are listed various tool that were developed for analyzing them.

研究の動機と目的

ゲノム、気象学、環境研究などのデータ集約的分野における、巨大で多様なデータセットを処理するという増大する課題に対処すること。
構造化および非構造化の両方のデータを管理する上で、従来のデータベースシステムが示す限界を特定すること。
1994年から2013年の間に開発された、スケーラブルなデータ処理のための主要なアルゴリズムおよびデータ処理技術をサーベイおよび分類すること。
さまざまなアプリケーション分野におけるビッグデータの効率的分析を支援するための重要なツールおよびフレームワークを強調すること。
現代の分散システムの台頭以前のビッグデータ処理におけるアーキテクチャ的およびアルゴリズム的進化を理解するための基盤的リファレンスを提供すること。

提案手法

1994年から2013年までのデータ管理分野における学術的文献および技術的動向の体系的レビュー。
大規模データセットからのデータストレージ、処理、パターン抽出における役割に基づいてアルゴリズムを分類すること。
ビッグデータに適した分散および並列コンピューティングモデルを含む、データ処理アーキテクチャの分類。
この期間中に大規模データ分析を支援するために開発された主要なツールおよびプラットフォームの特定と記述。
構造化および非構造化の両方のデータタイプの分析。それぞれのデータタイプに特化したアルゴリズムを強調。
スケーラビリティおよびビッグデータワークロードにおけるパフォーマンスを向上させるためのアルゴリズム設計およびシステムアーキテクチャのトレンドの統合。

実験結果

リサーチクエスチョン

RQ11994年から2013年の間に、大規模データを管理するために開発されたアルゴリズム的およびアーキテクチャ的イノベーションは何か？
RQ2現代のデータ処理技術は、ビッグデータを処理するという点で、従来のデータベースシステムとどのように異なるか？
RQ3この期間中に、スケーラブルなデータ分析を支援するために登場したツールおよびフレームワークは何か？
RQ4非構造化および準構造化データの処理における主な課題は何か。それらはどのように解決されたか？
RQ5データ処理モデルの進化は、データ集約的アプリケーションにおけるスケーラビリティおよびパフォーマンスの向上にどのように寄与したか？

主な発見

ゲノムや気象学などの分野で生成されるビッグデータのボリューム、ビロシティ、バリエーションに対応できず、従来のデータベースシステムは不十分であった。
分散および並列処理モデルの登場により、モノリシックアーキテクチャに比べて、よりスケーラブルで効率的なデータ分析が可能になった。
従来のシステムでは処理が困難な大規模データセットを扱うために、パターン抽出およびデータマイニングに特化したアルゴリズムが開発された。
この期間中に、スケーラブルなデータ処理を支援するツールおよびフレームワークが多数導入されたが、抽象概要では具体的なツール名は明記されていない。
このサーベイは、中央集権的アーキテクチャから分散型でスケーラブルなアーキテクチャへのデータ管理パラダイムの明確なシフトを特定している。
構造化データおよび非構造化データの処理技術の統合が重要な焦点となったことにより、より柔軟で適応性のあるデータ処理ソリューションが生まれた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。