QUICK REVIEW

[논문 리뷰] BigDataBench: a Big Data Benchmark Suite from Web Search Engines

Wanling Gao, Yuqing Zhu|arXiv (Cornell University)|2013. 07. 01.

Advanced Database Systems and Queries참고 문헌 14인용 수 47

한 줄 요약

이 논문은 실제 웹 검색 엔진 워크로드에서 유래한 BigDataBench를 소개한다. 이는 익명화된 웹 액세스 로그와 의미론적 검색 엔진(ProfSearch)을 활용하여 확장 가능하고 의미를 유지하는 데이터 생성을 가능하게 한다. 주요 기여는 작은 실제 데이터셋을 기반으로 데이터 국지성과 의미를 유지하면서 확장 가능한 새로운 데이터 생성 방법론을 개발한 것이다. 이는 다양한 워크로드에서의 성능 평가를 가능하게 하며, 최고 처리 속도가 응용 프로그램과 데이터 볼륨, 아키텍처 행동 모두에 의존함을 드러내며, 대규모 데이터 스케일에서만 아키텍처 행동이 안정화됨을 보여준다.

ABSTRACT

This paper presents our joint research efforts on big data benchmarking with several industrial partners. Considering the complexity, diversity, workload churns, and rapid evolution of big data systems, we take an incremental approach in big data benchmarking. For the first step, we pay attention to search engines, which are the most important domain in Internet services in terms of the number of page views and daily visitors. However, search engine service providers treat data, applications, and web access logs as business confidentiality, which prevents us from building benchmarks. To overcome those difficulties, with several industry partners, we widely investigated the open source solutions in search engines, and obtained the permission of using anonymous Web access logs. Moreover, with two years' great efforts, we created a sematic search engine named ProfSearch (available from http://prof.ict.ac.cn). These efforts pave the path for our big data benchmark suite from search engines---BigDataBench, which is released on the web page (http://prof.ict.ac.cn/BigDataBench). We report our detailed analysis of search engine workloads, and present our benchmarking methodology. An innovative data generation methodology and tool are proposed to generate scalable volumes of big data from a small seed of real data, preserving semantics and locality of data. Also, we preliminarily report two case studies using BigDataBench for both system and architecture researches.

연구 동기 및 목표

시스템 및 아키텍처 평가를 위한 대표성 있고 확장 가능하며 개인정보 보호를 고려한 빅데이터 벤치마크의 부족을 해결하기 위해.
기업 기밀로 인해 실질적인 검색 엔진 데이터에 접근이 제한된다는 도전 과제를 극복하기 위해.
작은 실제 세계의 시드 데이터에서 대규모로 의미적으로 정확한 데이터를 생성하기 위한 방법론을 개발하기 위해.
다양한 워크로드와 데이터 볼륨에서 빅데이터 시스템의 성능을 평가하기 위해.
특히 캐시 및 TLB 동역학을 포함한 증가하는 데이터 스케일 하에서의 아키텍처 행동 추세를 조사하기 위해.

제안 방법

인터넷 서비스에서 높은 볼륨과 중요성을 지닌 검색 엔진에 초점을 맞춘 점진적 벤치마킹 접근 방식을 채택하였다.
산업 파artner와의 협력을 통해 익명화된 실질적인 웹 액세스 로그를 확보하여 현실적인 워크로드 모델링을 가능하게 하였다.
벤치마크 설계 및 데이터 생성 과정을 검증하고 이끌기 위해 의미론적 검색 엔진인 ProfSearch를 구축하였다.
작은 실질적 데이터셋을 확장하면서도 의미론, 국지성, 액세스 패턴을 유지하는 혁신적인 데이터 생성 도구를 개발하였다.
정렬(Sort), 검색(Grep), 단어 수 세기(WordCount), 페이지랭크(PageRank), 조인(Join) 등 다섯 가지 대표적 워크로드를 포함하여 일반적인 빅데이터 처리 작업을 반영하였다.
시스템 스케일에서의 행동 분석을 위해 perf 도구를 사용하여 1000개 명령어당 캐시 및 TLB 미스 수와 같은 마이크로아키텍처 메트릭을 수집하였다.

실험 결과

연구 질문

RQ1제한된 실세계 데이터에서 현실적이고 확장 가능하며 개인정보 보호를 고려한 빅데이터 워크로드를 어떻게 생성할 수 있는가?
RQ2다양한 응용 프로그램과 데이터 볼륨에서 최고 처리 성능는 어떻게 변화하는가?
RQ3캐시 및 TLB 미스와 같은 아키텍처 행동이 안정화되는 데이터 스케일은 어느 정도인가?
RQ4시스템 성능 특성은 워크로드 유형과 데이터 볼륨에 얼마나 의존하는가?
RQ5빅데이터 벤치마크는 어떻게 시스템 수준과 마이크로아키텍처 수준의 연구를 지원할 수 있는가?

주요 결과

빅데이터 시스템의 최고 처리 속도는 응용 프로그램에 따라도 다르고 데이터 볼륨에 따라도 다르며, 이는 성능 튜닝이 특정 사용 케이스를 고려해야 한다는 것을 시사한다.
L1 명령어 미스 수(1000개 명령어당)와 같은 캐시 및 TLB 행동은 일정한 임계값을 초과하는 데이터 볼륨이 되어야만 안정화되며, 이는 정확한 아키텍처 분석을 위해 대규모 시뮬레이션의 필요성을 시사한다.
데이터 생성 방법론은 의미론과 국지성을 성공적으로 유지하여 작은 실세계 시드 데이터에서부터 현실적인 벤치마킹을 가능하게 하였다.
다양한 워크로드는 서로 다른 확장 행동을 보이다. 예를 들어, 정렬(Sort)은 데이터 볼륨 증가에 따라 L1 명령어 미스 수가 증가하는 반면, 검색(Grep)은 감소하는 경향을 보이며, 이는 워크로드 특화된 성능 역학을 강조한다.
Nutch 검색 서버 벤치마크 결과, 아키텍처 메트릭은 더 큰 데이터 볼륨에서 안정화됨을 확인하였으며, 이는 아키텍처 연구에서 대규모 시뮬레이션의 필요성을 재확인한다.
BigDataBench 세트는 시스템 및 아키텍처 성능 평가의 재현 가능성을 보장하며, 응용 프로그램 수준과 마이크로아키텍처 분석을 모두 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.