Skip to main content
QUICK REVIEW

[論文レビュー] Big Data: Challenges, Opportunities and Realities

Abhay Kumar Bhadani, Dhanya Jothimani|arXiv (Cornell University)|May 14, 2017
Cloud Computing and Resource Management被引用数 46
ひとこと要約

この論文は、IoTおよびWeb 2.0の文脈におけるビッグデータの課題、機会、現実を検討し、従来のRDBMSの限界を分析するとともに、スケーラブルなデータ処理のためのHadoop やNoSQL といった新興技術を評価している。ビッグデータ分析の包括的概要、ツール、今後の研究方向性を提示しており、高速度・大量データ処理に適したリレーショナルシステムから分散システムへの移行の重要性を強調している。

ABSTRACT

With the advent of Internet of Things (IoT) and Web 2.0 technologies, there has been a tremendous growth in the amount of data generated. This chapter emphasizes on the need for big data, technological advancements, tools and techniques being used to process big data are discussed. Technological improvements and limitations of existing storage techniques are also presented. Since, the traditional technologies like Relational Database Management System (RDBMS) have their own limitations to handle big data, new technologies have been developed to handle them and to derive useful insights. This chapter presents an overview of big data analytics, its application, advantages, and limitations. Few research issues and future directions are presented in this chapter.

研究の動機と目的

  • IoTおよびWeb 2.0技術によって引き起こされる増大するデータ量と、そのデータ管理への影響を分析すること。
  • 従来のリレーショナルデータベース管理システム(RDBMS)がビッグデータワークロードを効果的にスケーリングできない理由を特定すること。
  • Hadoop、NoSQL、分散コンピューティングフレームワークなどの新興技術がビッグデータ処理に与える影響を評価すること。
  • ビッグデータ分析の概要を提示し、その応用分野、利点、内在的な課題を明らかにすること。
  • ビッグデータ研究およびシステム設計における主要な研究課題と今後の方向性を提示すること。

提案手法

  • ビッグデータ処理およびストレージ分野における既存の文献および技術的進歩のサーベイ。
  • 従来のRDBMSとHadoop やNoSQL データベースのような現代の分散システムとの比較。
  • バッチ処理およびストリーム処理技術を用いたデータ処理パイプラインの分析。
  • ビッグデータフレームワークのスケーラビリティ、フェイルセーフ、パフォーマンス特性の評価。
  • データインジェクション、ストレージ、処理、分析の各用途に基づいてビッグデータツールを分類すること。
  • ビッグデータ分析ワークフローおよびシステムアーキテクチャの概念的フレームワークの提示。

実験結果

リサーチクエスチョン

  • RQ1IoTおよびWeb 2.0が生成するビッグデータの管理における主な技術的課題は何か?
  • RQ2従来のRDBMSシステムは、なぜビッグデータワークロードにおいて効果的にスケーリングできないのか?
  • RQ3Hadoop やNoSQL といった現代のビッグデータ技術の主な機能と限界は何か?
  • RQ4大規模かつ高速度のデータを処理・分析するための最も効果的なツールと技術は何か?
  • RQ5ビッグデータシステムおよび分析を進歩させるために不可欠な今後の研究方向性は何か?

主な発見

  • 従来のRDBMSシステムは、固定スキーマとスケーラビリティの制約により、ビッグデータのボリューム、ビロシティ、バリエーションに対応できない。
  • Hadoop やNoSQL データベースのような分散システムは、ビッグデータワークロードにおいて優れたスケーラビリティとフェイルセーフ性を提供する。
  • ビッグデータ分析は、医療、金融、ソーシャルメディアなど多様な分野でリアルタイムのインサイトと意思決定を可能にする。
  • Hadoop エコシステム(例:HDFS、MapReduce、Hive)の採用は、大規模データセットのバッチ処理における事実上の標準となった。
  • 技術の進歩にもかかわらず、異種のビッグデータプラットフォーム間でのデータ品質、セキュリティ、相互運用性の課題は依然として残っている。
  • 今後の研究は、リアルタイム処理の最適化、遅延の低減、ビッグデータシステムにおけるエネルギー効率の向上に注力する必要がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。