[論文レビュー] Lachesis: Automated Generation of Persistent Partitionings for Big Data Applications.
Lachesis は、ユーザー定義関数 (UDF) を解析可能な部分計算に分解し、深層強化学習を用いて最適なパーティショニング戦略を予測することで、大規模データワークロードにおける恒久的パーティショニングを自動化する。これによりシャッフルのオーバーヘッドを低減するとともに、アプリケーション間のデータ配置効率を向上させる。
Persistent partitioning is effective in improving the performance by avoiding the expensive shuffling operation, while incurring relatively small overhead. However it remains a significant challenge to automate this process for Big Data analytics workloads that extensively use user defined functions. That is because user defined functions coded with an object-oriented language such as Python, Scala, Java, can contain arbitrary code that is opaque to the system and makes it hard to extract and reuse sub-computations for optimizing data placement. In addition, it is also challenging to predict the future workloads that may utilize the partitionings. We propose the Lachesis system, which allows UDFs to be decomposed into analyzable and reusable sub-computations and relies on a deep reinforcement learning model that infers which sub-computations should be used to partition the underlying data. This analysis is then used to automatically optimize the storage of the data across applications.
研究の動機と目的
- オブジェクト指向言語で記述された複雑で不透明な UDF を使用する大規模データシステムにおいて、恒久的パーティショニングを自動化する課題に対処すること。
- 最適化に対して不透明な UDF から、再利用可能な部分計算を抽出・分析できるようにすること。
- 事前にパーティショニングされたデータが恩恵をもたらす可能性のある将来のワークロードを予測し、長期的なデータ配置効率を向上させること。
- 複数のアプリケーションにわたる最適化されたパーティショニング方式でデータを事前に保存することで、高コストなシャッフル操作を低減すること。
提案手法
- ユーザー定義関数 (UDF) を解析可能で再利用可能な部分計算に分解し、最適化の機会を明らかにする。
- 深層強化学習モデルを用いて、ワークロードのパターンに基づき、どの部分計算をデータパーティショニングに使用すべきかを推論する。
- UDF を部分計算レベルで分析し、実行時におけるシャッフルを回避するデータ配置の機会を特定する。
- 履歴的および予測されたワークロードのアクセスパターンを活用して、長期的なパフォーマンス向上を実現するパーティショニング意思決定を支援する。
- 大規模データプラットフォームと統合し、学習された戦略に基づいて恒久的にパーティショニング形式でデータを保存する。
実験結果
リサーチクエスチョン
- RQ1大規模データワークロードにおける不透明でユーザー定義の関数を、最適化可能な再利用可能な部分計算に分解・分析する方法は何か?
- RQ2多様なワークロードにわたる恒久的データパーティショニングに適した部分計算を選択するための、効果的な機械学習アプローチは何か?
- RQ3自動化された恒久的パーティショニングは、実世界の大規模データ分析パイプラインにおいて、どの程度シャッフルのオーバーヘッドを低減できるか?
- RQ4システムは変化するワークロードにどのように適応し、時間の経過とともにパフォーマンス向上を維持できるか?
主な発見
- Lachesis は、複雑な UDF を解析可能な部分計算に成功して分解し、そうでなければ実現不可能なデータ配置の最適化を可能にした。
- 深層強化学習モデルは、最適なパーティショニング戦略を正確に予測し、高コストなシャッフル操作の必要性を低減した。
- 予測されたアクセスパターンに基づき、事前にデータをパーティショニングすることで、複数のワークロードで顕著なパフォーマンス向上を達成した。
- 学習を用いて自動化された恒久的パーティショニングは、データ処理のオーバーヘッドを測定可能なレベルで低減することを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。