QUICK REVIEW

[论文解读] Interactive Analytical Processing in Big Data Systems: A Cross-Industry Study of MapReduce Workloads

Yanpei Chen, Sara Alspaugh|arXiv (Cornell University)|Aug 21, 2012

Cloud Computing and Resource Management参考文献 26被引用 71

一句话总结

本文对来自不同行业的七个大规模、生产级MapReduce工作负载进行了实证分析，涵盖Facebook及Cloudera客户在电子商务、电信、媒体和零售领域的应用，揭示了一类日益增长的交互式、半流式分析工作负载，其与传统批处理模式存在显著差异。研究识别出若干关键行为特征，如突发性工作负载、广泛使用类似查询的框架（例如Hive、Pig），以及小规模、短时作业的普遍性，从而挑战了以往关于数据访问均匀性和作业大小分布一致性的假设。

ABSTRACT

Within the past few years, organizations in diverse industries have adopted MapReduce-based systems for large-scale data processing. Along with these new users, important new workloads have emerged which feature many small, short, and increasingly interactive jobs in addition to the large, long-running batch jobs for which MapReduce was originally designed. As interactive, large-scale query processing is a strength of the RDBMS community, it is important that lessons from that field be carried over and applied where possible in this new domain. However, these new workloads have not yet been described in the literature. We fill this gap with an empirical analysis of MapReduce traces from six separate business-critical deployments inside Facebook and at Cloudera customers in e-commerce, telecommunications, media, and retail. Our key contribution is a characterization of new MapReduce workloads which are driven in part by interactive analysis, and which make heavy use of query-like programming frameworks on top of MapReduce. These workloads display diverse behaviors which invalidate prior assumptions about MapReduce such as uniform data access, regular diurnal patterns, and prevalence of large jobs. A secondary contribution is a first step towards creating a TPC-like data processing benchmark for MapReduce.

研究动机与目标

对技术行业以外的工业MapReduce部署中新兴的交互式和半流式分析工作负载进行特征刻画。
挑战关于MapReduce工作负载的长期假设，例如数据访问的均匀性、规律的昼夜模式以及大规模批处理作业的主导地位。
通过分析真实世界工作负载的多样性与复杂性，为大数据处理系统建立类似TPC的基准测试提供基础。
通过识别异构生产环境中的共性模式与异常行为，实现跨行业的系统优化。

提出的方法

从Facebook及Cloudera客户在电子商务、电信、媒体和零售领域的长期运行MapReduce工作负载追踪中收集并分析了七个工作负载。
将工作负载划分为三个概念性组件：数据访问模式、时间行为特征和计算特性。
使用工作负载重放工具和合成数据生成技术，将生产工作负载缩放以实现可复现的基准测试。
追踪作业级指标，包括作业持续时间、数据量以及框架使用情况（Hive、Pig），以评估工作负载构成。
分析时间负载变化、峰值与中位数负载比以及数据重访问模式，以评估突发性和局部性。
提出一个公开的工作负载仓库和重放工具，作为未来跨系统性能评估的基础。

实验结果

研究问题

RQ1工业MapReduce系统中的交互式和半流式分析工作负载与传统批处理工作负载有何不同？
RQ2关于MapReduce的常见假设（如数据访问均匀性、规律的昼夜模式）在真实部署中在多大程度上成立？
RQ3类似查询的框架（如Hive、Pig）对整体集群工作负载和作业特征的相对贡献有多大？
RQ4不同行业和组织之间的工作负载动态差异有多大？是否存在可被视为‘典型’的行为模式？
RQ5基于真实工业工作负载设计一个具有代表性的、类似TPC的基准测试，面临哪些关键挑战？

主要发现

80%的数据重访问发生在几分钟到几小时内，表明交互式工作负载具有显著的时间局部性。
峰值与中位数集群负载比在9:1至260:1之间，表明工作负载具有高度突发性和不可预测性。
所有工作负载中超过90%的作业为小规模作业，持续时间从几秒到几分钟，数据量从几十KB到几GB不等。
类似查询的框架（如Hive、Pig）占总集群负载的20%至80%，表明其在交互式数据探索中处于核心地位。
数据访问频率遵循偏斜的80-1至80-8法则，即一小部分数据被频繁访问。
不同行业和组织间工作负载行为的多样性否定了存在单一‘典型’MapReduce工作负载的观念，因此必须采用工作负载感知的系统设计。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。