QUICK REVIEW

[论文解读] BigDataBench: a Big Data Benchmark Suite from Web Search Engines

Wanling Gao, Yuqing Zhu|arXiv (Cornell University)|Jul 1, 2013

Advanced Database Systems and Queries参考文献 14被引用 47

一句话总结

本文提出了 BigDataBench，一个源自真实网络搜索引擎工作负载的大数据基准测试套件，利用匿名化网络访问日志和语义搜索引擎（ProfSearch）实现可扩展的、语义保留的数据生成。其主要贡献是一种新颖的数据生成方法论，在扩展小规模真实数据集的同时保持数据局部性和语义一致性，从而支持跨多种工作负载的性能评估，并揭示出峰值处理速率不仅取决于应用程序，还与数据量相关，且只有在大规模数据下架构行为才会趋于稳定。

ABSTRACT

This paper presents our joint research efforts on big data benchmarking with several industrial partners. Considering the complexity, diversity, workload churns, and rapid evolution of big data systems, we take an incremental approach in big data benchmarking. For the first step, we pay attention to search engines, which are the most important domain in Internet services in terms of the number of page views and daily visitors. However, search engine service providers treat data, applications, and web access logs as business confidentiality, which prevents us from building benchmarks. To overcome those difficulties, with several industry partners, we widely investigated the open source solutions in search engines, and obtained the permission of using anonymous Web access logs. Moreover, with two years' great efforts, we created a sematic search engine named ProfSearch (available from http://prof.ict.ac.cn). These efforts pave the path for our big data benchmark suite from search engines---BigDataBench, which is released on the web page (http://prof.ict.ac.cn/BigDataBench). We report our detailed analysis of search engine workloads, and present our benchmarking methodology. An innovative data generation methodology and tool are proposed to generate scalable volumes of big data from a small seed of real data, preserving semantics and locality of data. Also, we preliminarily report two case studies using BigDataBench for both system and architecture researches.

研究动机与目标

为系统与架构评估解决代表性不足、可扩展性差且缺乏隐私合规性的大数据基准测试问题。
克服因商业机密限制而导致难以获取真实搜索引擎数据的挑战。
开发一种从少量真实世界数据种子生成大规模、语义准确数据的方法论。
在多种工作负载和数据规模下评估大数据系统的性能。
研究在数据规模不断增加时的架构行为趋势，特别是缓存与TLB动态行为。

提出的方法

采用增量式基准测试方法，首先聚焦于搜索引擎，因其在互联网服务中具有高数据量和重要性。
通过与工业合作伙伴合作，获取了真实匿名化的网络访问日志，从而实现对真实工作负载的建模。
构建了一个语义搜索引擎 ProfSearch，用于验证和指导基准设计与数据生成过程。
开发了一种创新的数据生成工具，可在扩展小规模真实数据集的同时，保留数据语义、局部性及访问模式。
该基准包含五种代表性工作负载：Sort、Grep、WordCount、PageRank 和 Join，反映了常见的大数据处理任务。
使用 perf 工具收集每千条指令的缓存和 TLB 未命中次数等微架构指标，以分析大规模下的系统行为。

实验结果

研究问题

RQ1如何从有限的真实世界数据中生成真实、可扩展且符合隐私合规要求的大数据工作负载？
RQ2峰值数据处理性能在不同应用程序和数据规模下如何变化？
RQ3在何种数据规模下，如缓存和 TLB 未命中等架构行为会趋于稳定？
RQ4系统性能特征在多大程度上依赖于工作负载类型和数据规模？
RQ5大数据基准测试如何同时支持系统级与微架构级研究？

主要发现

大数据系统中的峰值数据处理速率既依赖于应用程序，也依赖于数据量，表明性能调优必须考虑具体用例。
缓存与 TLB 行为（如每千条指令的 L1 指令未命中次数）仅在数据量超过某一阈值后才趋于稳定，表明准确的架构分析需要大规模模拟。
数据生成方法论成功保留了数据语义与局部性，使得从少量真实世界数据种子出发即可实现真实基准测试。
不同工作负载表现出不同的扩展行为——例如，Sort 的 L1 指令未命中随数据量增加而上升，而 Grep 则呈下降趋势——凸显了工作负载特异性性能动态。
Nutch 搜索服务器基准测试表明，架构指标在更大数据量下趋于稳定，进一步证实了在架构研究中使用大规模模拟的必要性。
BigDataBench 套件支持系统与架构性能的可重复评估，同时支持应用级与微架构级分析。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。