Skip to main content
QUICK REVIEW

[论文解读] Lachesis: Automated Generation of Persistent Partitionings for Big Data Applications.

Jia Zou, Pratik Barhate|arXiv (Cornell University)|Jun 30, 2020
Parallel Computing and Optimization Techniques被引用 3
一句话总结

Lachesis 通过将用户定义的函数(UDFs)分解为可分析的子计算,并利用深度强化学习预测最优分区策略,实现了大数据工作负载中持久分区的自动化。这减少了数据混洗开销,同时提升了跨应用的数据放置效率。

ABSTRACT

Persistent partitioning is effective in improving the performance by avoiding the expensive shuffling operation, while incurring relatively small overhead. However it remains a significant challenge to automate this process for Big Data analytics workloads that extensively use user defined functions. That is because user defined functions coded with an object-oriented language such as Python, Scala, Java, can contain arbitrary code that is opaque to the system and makes it hard to extract and reuse sub-computations for optimizing data placement. In addition, it is also challenging to predict the future workloads that may utilize the partitionings. We propose the Lachesis system, which allows UDFs to be decomposed into analyzable and reusable sub-computations and relies on a deep reinforcement learning model that infers which sub-computations should be used to partition the underlying data. This analysis is then used to automatically optimize the storage of the data across applications.

研究动机与目标

  • 解决在使用面向对象语言编写的复杂、不透明的用户定义函数(UDFs)的大数据系统中,自动化持久分区的挑战。
  • 使系统能够分析并从原本对优化不可见的 UDF 中提取可重用的子计算。
  • 预测未来可能从预分区数据中受益的工作负载,从而提高长期数据放置效率。
  • 通过在多个应用中主动以优化的分区方案存储数据,减少昂贵的数据混洗操作。

提出的方法

  • 将用户定义的函数(UDFs)分解为可分析、可重用的子计算,以暴露优化机会。
  • 采用深度强化学习模型,根据工作负载模式推断应使用哪些子计算进行数据分区。
  • 在子计算层面分析 UDF,以识别可避免运行时数据混洗的数据放置机会。
  • 利用历史和预测的工作负载访问模式,指导分区决策以实现长期性能提升。
  • 与大数据平台集成,基于学习到的策略持久地将数据以分区格式存储。

实验结果

研究问题

  • RQ1如何分析并分解大数据工作负载中不透明的用户定义函数,以生成可用于优化的可重用子计算?
  • RQ2何种机器学习方法能有效预测在多样化工作负载中应使用哪些子计算进行持久数据分区?
  • RQ3自动化持久分区在实际大数据分析流水线中能在多大程度上减少数据混洗开销?
  • RQ4该系统如何适应不断变化的工作负载,并在长时间内保持性能提升?

主要发现

  • Lachesis 成功将复杂的 UDF 分解为可分析的子计算,使原本不可行的数据放置优化成为可能。
  • 深度强化学习模型准确预测了最优分区策略,显著减少了对昂贵数据混洗操作的需求。
  • 通过基于预测访问模式预分区数据,Lachesis 在多个工作负载中实现了显著的性能提升。
  • 该系统表明,当自动化并由学习驱动时,持久分区可带来可测量的数据处理开销减少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。