QUICK REVIEW

[논문 리뷰] Undefined By Data: A Survey of Big Data Definitions

Jonathan S. Ward, Adam Barker|arXiv (Cornell University)|2013. 09. 20.

Big Data Technologies and Applications인용 수 356

한 줄 요약

이 논문은 학계, 산업계, 미디어에서 나온 20개 이상의 빅데이터 정의를 조사하고 분석하여 볼륨, 속도, 다양성, 신뢰성, 복잡성, 기술 사용 등 반복적인 주제를 규명한다. 이는 고급 기법들인 NoSQL, MapReduce, 기계학습 등을 활용해 대규모 또는 복잡한 데이터셋을 저장하고 분석하는 것을 의미하며, 빅데이터라는 용어는 맥락에 따라 달라지며 단일한 일관된 기준이 없는 것을 강조한다.

ABSTRACT

The term big data has become ubiquitous. Owing to a shared origin between academia, industry and the media there is no single unified definition, and various stakeholders provide diverse and often contradictory definitions. The lack of a consistent definition introduces ambiguity and hampers discourse relating to big data. This short paper attempts to collate the various definitions which have gained some degree of traction and to furnish a clear and concise definition of an otherwise ambiguous term.

연구 동기 및 목표

학계, 산업계, 미디어에서 빅데이터에 대한 일관되고 통합된 정의가 부족한 문제를 해결하기 위해.
2011년 이후 나타난 다양한 빅데이터 정의를 분석하고 분류하기 위해.
기존 정의들 사이에서 공통 요소인 데이터 볼륨, 복잡성, 기술 사용 등을 규명하기 위해.
다양한 이해관계자들의 통합된 통찰을 기반으로 실용적이고 통합된 빅데이터 정의를 제안하기 위해.
크기, 복잡성, 기술적 요구사항 간의 모호함을 명확히 하기 위해 빅데이터 논의에서 이를 구분하기 위해.

제안 방법

Gartner, NIST, IBM, Oracle, Intel, Microsoft, MIKE2.0 프로젝트 등 주요 기관들로부터 20개 이상의 빅데이터 정의를 체계적으로 수집하고 검토하였다.
핵심 구성요소 기반으로 정의를 분류하였는데, 이는 세 가지 V(볼륨, 속도, 다양성), Veracity의 추가, 또는 기술 및 가치 추출에 중점을 두는 것이다.
Google 트렌드 데이터를 활용해 관련 기술의 추세를 분석하여 Hadoop, NoSQL, 기계학습, 데이터 분석 등 주요 도구를 규명하였다.
계산 복잡성과 시스템 한계의 역할을 평가하였으며, NIST의 정의에 따르면 빅데이터는 전통적 시스템의 능력을 초월한다.
볼륨, 복잡성, 기술 사용에 중점을 두고 다인자 정의로 통합된 결과를 도출하였으며, 용어의 진화와 맥락 의존성에 주목하였다.
비교 분석을 통해 정의 간 모순과 겹침을 파악하였으며, 특히 정량적 기준과 적용 기준에 대한 논의에서 주목할 만한 특징을 확인하였다.

실험 결과

연구 질문

RQ1학계, 산업계, 미디어에서 가장 널리 인용되고 영향력 있는 빅데이터 정의는 무엇인가?
RQ2빅데이터 정의들은 데이터 볼륨, 다양성, 속도, 신뢰성, 복잡성, 또는 기술 인프라에 대해 어떤 정도로 강조하는가?
RQ3기존 정의들이 정량적 기준보다는 정성적 묘사에 얼마나 의존하고 있는가?
RQ4Hadoop, NoSQL, 기계학습, MapReduce와 같은 기술들이 빅데이터의 개념적 경계를 어떻게 형성하고 있는가?
RQ5기존 정의들의 통합을 통해 통합적이고 실용적인 빅데이터 정의를 도출할 수 있는가? 그리고 그러한 정의에 포함되어야 할 요소는 무엇인가?

주요 결과

‘빅데이터’라는 용어는 단일하고 일관된 정의를 갖지 못하며, 이해관계자들 사이에서 20개 이상의 서로 다른 정의가 존재하여 논의에서 상당한 모호함을 초래한다.
가장 널리 인용되는 프레임워크인 Gartner의 세 가지 V(볼륨, 속도, 다양성)는 원래 2001년에 개발되었으며 현재의 빅데이터 트렌드 이전이지만 여전히 널리 인용되고 있다.
IBM 등에서 후에 추가한 Veracity는 데이터 신뢰성과 불확실성을 다루기 위해 도입되었으며, 데이터 품질과 신뢰성의 중요성이 증가하고 있음을 시사한다.
Oracle는 빅데이터를 사회적 미디어, 센서 등 비정형 데이터 소스를 기존 관계형 데이터베이스에 통합하는 것으로 정의하며 인프라와 가치 추출에 중점을 둔다.
Intel는 흔치 않은 정량적 기준을 제시하며 주간 평균 300테라바이트의 데이터를 빅데이터의 기준으로 제시한다. 다만 이는 보편적 표준이 아니라 파artner 설문 조사 기반이다.
Microsoft의 정의는 고급 컴퓨팅 능력과 기계학습, AI와 같은 기술의 필요성을 강조하며, 빅데이터를 단순한 데이터 크기 현상이 아닌 기술적 이동으로 위치시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.