Skip to main content
QUICK REVIEW

[논문 리뷰] Algorithm and approaches to handle large Data- A Survey

Chanchal Yadav, Shuliang Wang|arXiv (Cornell University)|2013. 07. 20.
Data Management and Algorithms참고 문헌 24인용 수 54
한 줄 요약

이 종합 검토(2013)는 1994년부터 2013년까지 대규모 데이터를 관리하고 분석하기 위한 알고리즘과 아키텍처적 접근법을 검토한다. 특히 빅데이터 환경에서의 적용을 중심으로 하며, 주요 데이터 처리 기법을 개론하고, 구조화된 데이터와 비구조화된 데이터를 다루는 데 핵심적인 도구들을 특정하며, 유전체학 및 기상학 분야에서 전통적인 데이터베이스의 한계를 극복하기 위한 진화하는 솔루션에 대한 종합적인 개요를 제공한다.

ABSTRACT

Data mining environment produces a large amount of data, that need to be analyzed, patterns have to be extracted from that to gain knowledge. In this new era with boom of data both structured and unstructured, in the field of genomics, meteorology, biology, environmental research and many others, it has become difficult to process, manage and analyze patterns using traditional databases and architectures. So, a proper architecture should be understood to gain knowledge about the Big Data. This paper presents a review of various algorithms from 1994-2013 necessary for handling such large data set. These algorithms define various structures and methods implemented to handle Big Data, also in the paper are listed various tool that were developed for analyzing them.

연구 동기 및 목표

  • 유전체학, 기상학, 환경 연구와 같은 데이터 집약적 분야에서 막대하고 다양한 데이터셋을 처리하는 데 증가하는 과제를 다루기 위해.
  • 구조화된 데이터와 비구조화된 데이터를 포함한 대규모 이질적 데이터를 관리하는 데 있어 전통적인 데이터베이스 시스템의 한계를 특정하기 위해.
  • 1994년부터 2013년 사이에 개발된 확장 가능한 데이터 처리를 위한 핵심 알고리즘과 데이터 처리 기법을 조사하고 분류하기 위해.
  • 다양한 적용 분야에서 빅데이터의 효율적 분석을 지원하기 위해 설계된 필수 도구와 프레임워크를 부각하기 위해.
  • 현대 분산 시스템의 부상 이전의 빅데이터 처리 분야에서의 아키텍처 및 알고리즘의 진화를 이해하기 위한 기초 참고 자료를 제공하기 위해.

제안 방법

  • 1994년부터 2013년까지 데이터 관리 분야의 학술 문헌과 기술 발전에 대한 체계적 검토.
  • 대규모 데이터셋으로부터의 데이터 저장, 처리, 패턴 추출 기능을 수행하는 데 기여하는 알고리즘의 역할에 기반한 분류.
  • 빅데이터에 적합한 분산 및 병렬 컴퓨팅 모델을 포함한 데이터 처리 아키텍처의 분류.
  • 이 기간 동안 대규모 데이터 분석을 지원하기 위해 개발된 주요 도구 및 플랫폼의 식별 및 기술.
  • 구조화된 데이터와 비구조화된 데이터 유형의 분석을 통해 각각에 특화된 알고리즘의 특징을 부각.
  • 확장성과 빅데이터 워크로드의 성능을 향상시키기 위한 알고리즘 설계 및 시스템 아키텍처의 추세 통합 분석.

실험 결과

연구 질문

  • RQ11994년부터 2013년 사이에 대규모 데이터를 관리하기 위해 개발된 알고리즘적 및 아키텍처적 혁신은 무엇이 있었는가?
  • RQ2현대의 데이터 처리 기법은 빅데이터를 처리하는 데 있어 전통적인 데이터베이스 시스템과 어떻게 다를까?
  • RQ3이 기간 동안 확장 가능한 데이터 분석을 지원하기 위해 등장한 도구와 프레임워크는 무엇이 있었는가?
  • RQ4비구조화된 데이터와 반구조화된 데이터를 처리하는 데 있어 주요 과제는 무엇이었고, 어떻게 해결되었는가?
  • RQ5데이터 처리 모델의 진화는 데이터 집약적 응용 프로그램에서의 확장성과 성능 향상에 어떻게 기여했는가?

주요 결과

  • 유전체학 및 기상학 분야에서 생성되는 빅데이터의 볼륨, 속도, 다양성에 비추어 볼 때 기존의 데이터베이스 시스템은 부적합한 것으로 판명되었다.
  • 분산 및 병렬 처리 모델의 출현은 단일 아키텍처에 비해 더 높은 확장성과 효율성을 제공함으로써 더 나은 데이터 분석이 가능하게 되었다.
  • 기존 시스템의 능력을 초월하는 대규모 데이터셋을 처리하기 위해 패턴 추출 및 데이터 마이닝을 위한 전용 알고리즘이 개발되었다.
  • 이 기간 동안 확장 가능한 데이터 처리를 지원하기 위해 다양한 도구와 프레임워크가 도입되었지만, 요약문에서는 특정 도구 이름은 상세히 기재되어 있지 않다.
  • 이 종합 검토는 중앙집중식 아키텍처에서 분산형으로의 데이터 관리 패러다임 전환을 명확히 규명하고 있으며, 이는 빅데이터 요구 사항을 충족하기 위함이다.
  • 구조화된 데이터와 비구조화된 데이터 처리 기법의 통합이 핵심 과제로 부각되었으며, 이는 더 유연하고 적응력 있는 데이터 처리 솔루션을 이끌어냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.