Skip to main content
QUICK REVIEW

[論文レビュー] Undefined By Data: A Survey of Big Data Definitions

Jonathan S. Ward, Adam Barker|arXiv (Cornell University)|Sep 20, 2013
Big Data Technologies and Applications被引用数 356
ひとこと要約

この論文は、学術界、産業界、メディアから20以上のビッグデータ定義を調査・分析し、ボリューム、ボリューム、バリアビリティ、複雑性、技術利用といった共通のテーマを同定する。統一された定義を提唱する:ビッグデータとは、NoSQL、MapReduce、機械学習などの高度な技術を用いて、大規模または複雑なデータセットの保存および分析を指すものであり、文脈に依存するという点を強調しており、一貫した標準が存在しないことを示している。

ABSTRACT

The term big data has become ubiquitous. Owing to a shared origin between academia, industry and the media there is no single unified definition, and various stakeholders provide diverse and often contradictory definitions. The lack of a consistent definition introduces ambiguity and hampers discourse relating to big data. This short paper attempts to collate the various definitions which have gained some degree of traction and to furnish a clear and concise definition of an otherwise ambiguous term.

研究の動機と目的

  • 学術界、産業界、メディアの間で一貫した、統一されたビッグデータの定義が存在しないという問題に対処すること。
  • 2011年以降に登場した多様でしばしば矛盾するビッグデータの定義を分析・分類すること。
  • 既存の定義に共通する要因(データボリューム、複雑性、技術利用など)を同定すること。
  • 複数のステークホルダーからの統合的知見に基づいて、統合的かつ実行可能なビッグデータの定義を提唱すること。
  • サイズ、複雑性、技術的要件の違いを明確にすることで、ビッグデータの議論における曖昧さを解消すること。

提案手法

  • Gartner、NIST、IBM、Oracle、Intel、Microsoft、MIKE2.0プロジェクトなど、主要な組織から20件以上のビッグデータ定義を体系的に収集・レビューした。
  • コアな構成要素に基づいて定義を分類:3つのV(ボリューム、ボリューム、バリエーション)、Veracityの追加、または技術的要因と価値抽出への焦点。
  • Googleトレンドデータを用いて関連技術のトレンドを分析し、Hadoop、NoSQL、機械学習、データ分析といった主要なツールを同定した。
  • 計算複雑性とシステム制限の役割を評価し、NISTの定義(従来のシステム能力を超える)を参照した。
  • ボリューム、複雑性、技術利用に重点を置いた多要因の定義に統合的知見を抽出したが、用語の進化と文脈依存性を認識した。
  • 比較分析を用いて、特に定量化と適用の閾値に関して、定義間の矛盾や重複を明らかにした。

実験結果

リサーチクエスチョン

  • RQ1学術界、産業界、メディアで最も広く引用され、影響力のあるビッグデータの定義は何か?
  • RQ2ビッグデータの定義は、データボリューム、バリエーション、ボリューム、バリアビリティ、複雑性、技術的インfraのどの側面に重点を置いているか?
  • RQ3既存の定義は、定量的閾値ではなく、定性的な記述にどれほど依存しているか?
  • RQ4Hadoop、NoSQL、機械学習、MapReduceといった技術は、ビッグデータの概念的境界をどのように形作っているか?
  • RQ5既存の定義を統合することで、統一的で実用的なビッグデータの定義を導き出すことは可能か?その定義に含めるべき要因は何か?

主な発見

  • 『ビッグデータ』という用語は、一貫した定義がなく、ステークホルダー間で20件以上の異なる定義が確認され、議論における著しい曖昧さを生じさせている。
  • 最も広く引用されているフレームワークであるGartnerの3つのV(ボリューム、ボリューム、バリエーション)は、2001年に開発されたもので、現在のビッグデータブームよりも前であり、それでも広く引用されている。
  • IBMや他の機関が後から追加したバリアビリティは、データの信頼性と不確実性への対応を示しており、データ品質と信頼性の重要性が高まっていることを強調している。
  • Oracleは、ビッグデータを、ソーシャルメディアやセンサーなどの非構造的データソースを従来のリレーショナルデータベースに統合することとして定義し、インfraストラクチャと価値抽出の重要性を強調している。
  • Intelは、300テラバイト/週のデータ量をビッグデータの閾値として提示する、稀な定量的ベンチマークを提供しているが、これはパートナーレポートに基づくものであり、普遍的基準ではない。
  • Microsoftの定義は、高度な計算能力と機械学習・AIなどの技術の必要性に重点を置き、ビッグデータを単なるデータサイズの現象ではなく、技術的移行として位置づけている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。