QUICK REVIEW

[論文レビュー] BigDataBench: a Big Data Benchmark Suite from Web Search Engines

Wanling Gao, Yuqing Zhu|arXiv (Cornell University)|Jul 1, 2013

Advanced Database Systems and Queries参考文献 14被引用数 47

ひとこと要約

本稿では、匿名化されたウェブアクセスログと意味的検索エンジン（ProfSearch）を用いて、スケーラブルで意味的保持がなされたデータ生成を可能にする、実際のウェブ検索エンジンワークロードに由来するBigDataBenchというビッグデータベンチマークスイートを紹介する。主な貢献は、データの局所性と意味的特性を保持しつつ、小さな実データセットをスケーリングするための新規なデータ生成手法であり、多様なワークロードにおけるパフォーマンス評価を可能にし、ピーク処理レートがアプリケーションとデータ量の両方に依存すること、また、アーキテクチャ的挙動は大規模データに達するまで安定しないことを明らかにする。

ABSTRACT

This paper presents our joint research efforts on big data benchmarking with several industrial partners. Considering the complexity, diversity, workload churns, and rapid evolution of big data systems, we take an incremental approach in big data benchmarking. For the first step, we pay attention to search engines, which are the most important domain in Internet services in terms of the number of page views and daily visitors. However, search engine service providers treat data, applications, and web access logs as business confidentiality, which prevents us from building benchmarks. To overcome those difficulties, with several industry partners, we widely investigated the open source solutions in search engines, and obtained the permission of using anonymous Web access logs. Moreover, with two years' great efforts, we created a sematic search engine named ProfSearch (available from http://prof.ict.ac.cn). These efforts pave the path for our big data benchmark suite from search engines---BigDataBench, which is released on the web page (http://prof.ict.ac.cn/BigDataBench). We report our detailed analysis of search engine workloads, and present our benchmarking methodology. An innovative data generation methodology and tool are proposed to generate scalable volumes of big data from a small seed of real data, preserving semantics and locality of data. Also, we preliminarily report two case studies using BigDataBench for both system and architecture researches.

研究の動機と目的

システムおよびアーキテクチャ評価のための代表的でスケーラブルかつプライバシー準拠のビッグデータベンチマークが不足している問題に対処すること。
事業上の機密性のため、実際の検索エンジンデータへのアクセスが制限されているという課題を克服すること。
小さな実世界のシードデータから大規模で意味的に正確なデータを生成するための手法を開発すること。
多様なワークロードおよびデータ量におけるビッグデータシステムのパフォーマンスを評価すること。
特にキャッシュおよびTLBのダイナミクスに注目し、データスケールの増大に伴うアーキテクチャ的挙動のトレンドを調査すること。

提案手法

インターネットサービスにおける重要性と高頻度性を鑑み、まず検索エンジンに焦点を当てた段階的ベンチマーキング手法を採用した。
業界パートナーとの協力により、実際のワークロードモデル化を可能にする匿名化された実際のウェブアクセスログを入手した。
ベンチマーク設計およびデータ生成プロセスの検証とガイドラインとして、意味的検索エンジンであるProfSearchを構築した。
小さな実データセットをスケーリングしながらも、データの意味的特性、局所性、アクセスパターンを保持する革新的なデータ生成ツールを開発した。
スクリプトの実行に必要な代表的ワークロード5つ（Sort, Grep, WordCount, PageRank, Join）を含むベンチマークを構築した。これらは一般的なビッグデータ処理タスクを反映している。
perfツールを用いて、1000命令あたりのキャッシュおよびTLBミス回数といったマイクロアーキテクチャ的メトリクスを収集し、スケールにおけるシステム挙動の分析を行った。

実験結果

リサーチクエスチョン

RQ1限られた実世界データから、現実的でスケーラブルかつプライバシー準拠のビッグデータワークロードをどのように生成できるか？
RQ2異なるアプリケーションおよびデータ量において、ピークデータ処理パフォーマンスはどのように変化するか？
RQ3キャッシュおよびTLBミスなどのアーキテクチャ的挙動が安定するのはどのデータスケールに達したときか？
RQ4システムのパフォーマンス特性がワークロードタイプおよびデータ量にどの程度依存するか？
RQ5ビッグデータベンチマークは、システムレベルおよびマイクロアーキテクチャレベルの研究をどの程度支援できるか？

主な発見

ビッグデータシステムにおけるピークデータ処理レートは、アプリケーション依存性とデータ量依存性の両方を示しており、パフォーマンスチューニングには特定のユースケースを考慮する必要があることを示唆している。
L1命令ミス回数（1000命令あたり）を含むキャッシュおよびTLB挙動は、ある閾値を超えたデータ量に達するまで安定しないことが判明した。これは、正確なアーキテクチャ的分析には大規模シミュレーションが必要であることを示している。
データ生成手法は、意味的特性と局所性を効果的に保持しており、小さな実世界のシードデータからも現実的なベンチマークが可能であることを実証した。
異なるワークロードは異なるスケーリング挙動を示す—例えば、Sortはデータ量の増加に伴いL1命令ミスが増加するが、Grepは減少する—これにより、ワークロード固有のパフォーマンスダイナミクスが顕在化した。
Nutch検索サーバーベンチマークの結果、アーキテクチャ的メトリクスはより大きなデータ量に達するまで安定せず、アーキテクチャ研究における大規模シミュレーションの必要性を裏付けた。
BigDataBenchスイートは、システムおよびアーキテクチャパフォーマンスの再現可能評価を可能にし、アプリケーションレベルおよびマイクロアーキテクチャ的分析の両方を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。