QUICK REVIEW

[논문 리뷰] Lachesis: Automated Generation of Persistent Partitionings for Big Data Applications.

Jia Zou, Pratik Barhate|arXiv (Cornell University)|2020. 06. 30.

Parallel Computing and Optimization Techniques인용 수 3

한 줄 요약

Lachesis는 사용자 정의 함수(UDF)를 분석 가능한 부분 계산으로 분해하고, 딥 강화 학습을 사용하여 최적의 분할 전략을 예측함으로써 대규모 데이터 워크로드에서 지속적인 분할을 자동화한다. 이는 샤플링 오버헤드를 줄이고, 응용 간 데이터 배치 효율성을 향상시킨다.

ABSTRACT

Persistent partitioning is effective in improving the performance by avoiding the expensive shuffling operation, while incurring relatively small overhead. However it remains a significant challenge to automate this process for Big Data analytics workloads that extensively use user defined functions. That is because user defined functions coded with an object-oriented language such as Python, Scala, Java, can contain arbitrary code that is opaque to the system and makes it hard to extract and reuse sub-computations for optimizing data placement. In addition, it is also challenging to predict the future workloads that may utilize the partitionings. We propose the Lachesis system, which allows UDFs to be decomposed into analyzable and reusable sub-computations and relies on a deep reinforcement learning model that infers which sub-computations should be used to partition the underlying data. This analysis is then used to automatically optimize the storage of the data across applications.

연구 동기 및 목표

객체 지향 언어로 작성된 복잡하고 투명한 UDF를 사용하는 대규모 데이터 시스템에서 지속적인 분할을 자동화하는 데 도전하는 것.
기존에 최적화에 접근 불가능한 UDF에서 재사용 가능한 부분 계산을 분석하고 추출할 수 있도록 하는 것.
사전에 분할된 데이터가 유용한 미래 워크로드를 예측하여 장기적인 데이터 배치 효율성을 향상시키는 것.
다양한 응용 프로그램 간에 최적화된 분할 구조로 데이터를 사전에 저장하여 고비용의 샤플링 작업을 줄이는 것.

제안 방법

사용자 정의 함수(UDF)를 분석 가능하고 재사용 가능한 부분 계산으로 분해하여 최적화 기회를 노출하는 것.
워크로드 패턴을 기반으로 어떤 부분 계산을 데이터 분할에 사용할지 추론하기 위해 딥 강화 학습 모델을 활용하는 것.
UDF를 부분 계산 수준에서 분석하여 런타임 샤플링을 피할 수 있는 데이터 배치 기회를 식별하는 것.
역사적 및 예측된 워크로드 액세스 패턴을 기반으로 장기적인 성능 향상을 위한 분할 결정을 이끄는 것.
학습된 전략에 기반해 지속적으로 데이터를 분할된 형식으로 저장할 수 있도록 대규모 데이터 플랫폼과 통합하는 것.

실험 결과

연구 질문

RQ1대규모 데이터 워크로드에서 투명하고 복잡한 사용자 정의 함수는 어떻게 분석하고 재사용 가능한 부분 계산으로 분해할 수 있는가?
RQ2다양한 워크로드에서 지속적인 데이터 분할을 위해 어떤 머신 러닝 접근 방식이 효과적으로 부분 계산을 예측할 수 있는가?
RQ3자동화된 지속적 분할이 실제 대규모 데이터 분석 파이프라인에서 샤플링 오버헤드를 얼마나 줄일 수 있는가?
RQ4시스템은 변화하는 워크로드에 어떻게 적응하며, 시간이 지남에 따라 성능 향상을 유지할 수 있는가?

주요 결과

Lachesis는 복잡한 UDF를 분석 가능한 부분 계산으로 성공적으로 분해하여, 이전에는 실현 불가능했던 데이터 배치 최적화를 가능하게 하였다.
딥 강화 학습 모델은 최적의 분할 전략을 정확하게 예측하여 고비용의 샤플링 작업이 줄어들게 하였다.
예측된 액세스 패턴에 기반해 사전에 데이터를 분할함으로써, Lachesis는 여러 워크로드에서 뚜렷한 성능 향상을 달성하였다.
학습에 기반한 자동화된 지속적 분할이 데이터 처리 오버헤드를 측정 가능한 정도로 줄이는 데 성공했음을 시스템이 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.