QUICK REVIEW

[논문 리뷰] Interactive Analytical Processing in Big Data Systems: A Cross-Industry Study of MapReduce Workloads

Yanpei Chen, Sara Alspaugh|arXiv (Cornell University)|2012. 08. 21.

Cloud Computing and Resource Management참고 문헌 26인용 수 71

한 줄 요약

이 논문은 다양한 산업 분야의 대규모 프로덕션 수준의 MapReduce 워크로드 7개에 대한 실증 분석을 제시한다. 이는 페이스북과 클라우드라의 전자상거래, 통신, 미디어, 소매 분야 고객들을 포함하며, 기존의 배치 처리 방식과 크게 다름을 보이는 상호작용적이고 반스트리밍 형태의 분석 워크로드가 증가하고 있음을 드러낸다. 연구는 급격한 워크로드 변화, 쿼리 유사 프레임워크(예: Hive, Pig)의 광범위한 사용, 작은 짧은 작업의 빈도 등 핵심 행동 패턴을 규명하여, 이전에 통일된 데이터 접근 방식과 작업 크기 분포에 대한 가정이 도전받을 수 있음을 보여준다.

ABSTRACT

Within the past few years, organizations in diverse industries have adopted MapReduce-based systems for large-scale data processing. Along with these new users, important new workloads have emerged which feature many small, short, and increasingly interactive jobs in addition to the large, long-running batch jobs for which MapReduce was originally designed. As interactive, large-scale query processing is a strength of the RDBMS community, it is important that lessons from that field be carried over and applied where possible in this new domain. However, these new workloads have not yet been described in the literature. We fill this gap with an empirical analysis of MapReduce traces from six separate business-critical deployments inside Facebook and at Cloudera customers in e-commerce, telecommunications, media, and retail. Our key contribution is a characterization of new MapReduce workloads which are driven in part by interactive analysis, and which make heavy use of query-like programming frameworks on top of MapReduce. These workloads display diverse behaviors which invalidate prior assumptions about MapReduce such as uniform data access, regular diurnal patterns, and prevalence of large jobs. A secondary contribution is a first step towards creating a TPC-like data processing benchmark for MapReduce.

연구 동기 및 목표

기술 분야 외의 산업 분야에서의 상호작용적이고 반스트리밍 형태의 분석 워크로드의 특성을 규명하기 위해.
MapReduce 워크로드에 대한 오랜 기간 지속된 가정, 예를 들어 균일한 데이터 접근, 규칙적인 일일 주기 패턴, 대규모 배치 작업의 지배적 우세성 등을 도전하기 위해.
실제 워크로드의 다양성과 복잡성을 분석하여 TPC 유사 벤치마크를 위한 기초를 마련하기 위해.
이질적인 프로덕션 환경 간의 공통 패턴과 이질성을 규명하여 다국적 시스템 최적화를 가능하게 하기 위해.

제안 방법

전자상거래, 통신, 미디어, 소매 분야의 페이스북 및 클라우드라 고객들로부터 장기간 지속된 7개의 MapReduce 워크로드 트레이스를 수집하고 분석하였다.
워크로드를 세 가지 개념적 구성요소로 분류: 데이터 접근 패턴, 시간적 행동, 계산 특성.
재현 가능한 벤치마킹을 위해 워크로드 재생 도구와 합성 데이터 생성을 사용하여 프로덕션 워크로드를 축소하였다.
작업 수명 주기, 데이터 볼륨, 프레임워크 사용(예: Hive, Pig)과 같은 작업 수준 메트릭을 추적하여 워크로드 구성 평가를 수행하였다.
시간적 부하 변동, 피크 대 중앙값 비율, 데이터 재접근 패턴을 분석하여 급격한 움직임과 국소성 정도를 평가하였다.
향후 다시스템 성능 평가를 위한 기초로 공개 워크로드 레포지터리와 재생 도구를 제안하였다.

실험 결과

연구 질문

RQ1산업적 MapReduce 시스템에서의 상호작용적이고 반스트리밍 형태의 분석 워크로드는 기존의 배치 워크로드와 어떻게 다를까?
RQ2실제 프로덕션 환경에서, 예를 들어 균일한 데이터 접근 방식이나 규칙적인 일일 주기 패턴과 같은 MapReduce에 대한 일반적인 가정들이 얼마나 유지되는가?
RQ3쿼리 유사 프레임워크(예: Hive, Pig)가 전체 클러스터 워크로드와 작업 특성에 기여하는 비율은 어느 정도인가?
RQ4다양한 산업 분야와 조직 간의 워크로드 역학은 얼마나 다양하며, 어떤 행동 패턴을 '표준'으로 간주할 수 있는가?
RQ5실제 산업 워크로드를 기반으로 한 대표성 있는 TPC 스타일의 벤치마크를 설계할 때의 주요 과제는 무엇인가?

주요 결과

80%의 데이터 재접근은 분 단위에서 수 시간 이내에 발생하여, 상호작용 워크로드에서 강한 시간적 국소성을 나타낸다.
피크 대 중앙값 클러스터 부하 비율은 9:1에서 260:1까지 다양하여, 매우 급격하고 예측 불가능한 워크로드임을 입증한다.
모든 워크로드에서 전체 작업의 90% 이상이 작고, 지속 시간은 몇 초에서 몇 분 사이이며, 데이터 볼륨은 수 킬로바이트에서 수 기가바이트 수준이다.
Hive, Pig와 같은 쿼리 유사 프레임워크는 클러스터 총 부하의 20%에서 80%까지 차지하여, 상호작용적 데이터 탐색에서 핵심적인 역할을 한다고 볼 수 있다.
데이터 접근 빈도는 80-1 또는 80-8 규칙에 따라 비대칭적으로 분포하며, 소수의 데이터만 매우 빈번하게 접근된다.
산업 분야와 조직 간의 워크로드 행동 패턴의 다양성은 단일 '표준' MapReduce 워크로드 개념을 무효화하며, 워크로드 인식 기반의 시스템 설계가 필수적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.