QUICK REVIEW

[論文レビュー] Job scheduling on data centers with deep reinforcement learning

Sisheng Liang, Zhou Yang|arXiv (Cornell University)|Sep 15, 2019

Cloud Computing and Resource Management参考文献 10被引用数 1

ひとこと要約

本稿では、異種のデータセンターにおけるジョブスケジューリングを最適化するための、アドバンテージアクターキャリブレーション（A2C）に基づく深層強化学習アプローチ、A2cSchedulerを提案する。2つのエージェント（アクターとクリティック）を用いることで、勾配の分散を低減し、訓練効率を向上させ、シミュレート済みおよび実世界のワークロードの両方で競争力ある性能を達成する。

ABSTRACT

Efficient job scheduling on data centers under heterogeneous complexity is crucial but challenging since it involves the allocation of multi-dimensional resources over time and space. To adapt the complex computing environment in data centers, we proposed an innovative Advantage Actor-Critic (A2C) deep reinforcement learning based approach called A2cScheduler for job scheduling. A2cScheduler consists of two agents, one of which, dubbed the actor, is responsible for learning the scheduling policy automatically and the other one, the critic, reduces the estimation error. Unlike previous policy gradient approaches, A2cScheduler is designed to reduce the gradient estimation variance and to update parameters efficiently. We show that the A2cScheduler can achieve competitive scheduling performance using both simulated workloads and real data collected from an academic data center.

研究の動機と目的

異種で多次元的なリソース要件を有するデータセンターにおける効率的なジョブスケジューリングの課題に対処すること。
従来のポリシー勾配法の限界を克服し、スケジューリングポリシー学習における勾配推定の分散を低減すること。
時間的・空間的に動的にリソースを割り当てる、スケーラブルで適応可能なスケジューリングフレームワークを設計すること。
手動で設計されたヒューリスティクスに依存せずに、エンドツーエンドの深層強化学習により、スケジューリング効率とシステムパフォーマンスを向上させること。

提案手法

アクターがスケジューリングポリシーを学習し、クリティックが価値関数を推定してポリシー勾配の分散を低減する2つの異なるエージェントを有するアドバンテージアクターキャリブレーション（A2C）フレームワークを採用する。
クリティックの価値関数を用いてアドバンテージ信号を計算し、標準的なポリシー勾配法と比較して、より安定的かつ効率的なポリシー更新を実現する。
時間差分学習を用いてエンドツーエンドでアクターキャリブレーションネットワークを訓練し、長期的なスケジューリング目的を最適化する。
効果的な状態-行動価値推定が可能なように、多次元リソース使用状況とジョブの特徴を表現する状態表現を設計する。
動的で変化しやすいデータセンター環境におけるサンプル効率の向上と訓練の高速化を図るため、経験リプレイと並列ロールアウトを適用する。
アドバンテージに基づく信用配分を用いた確率的勾配降下法によりポリシーを最適化し、収束性と安定性を向上させる。

実験結果

リサーチクエスチョン

RQ1A2Cベースの深層強化学習アプローチは、異種のデータセンター環境において、従来のスケジューリングヒューリスティクスを上回る性能を発揮できるか？
RQ2A2Cアーキテクチャは、スケジューリングにおける標準的なポリシー勾配法と比較して、勾配の分散をどのように低減し、訓練の安定性を向上させるか？
RQ3提案されたA2cSchedulerは、実世界のデータセンタートレースを含む多様なワークロードにどの程度一般化可能か？
RQ4アクター・クリティック設計は、スケジューリングポリシー学習における探索と活用のバランスをどの程度効果的に実現できるか？
RQ5クリティックの価値推定は、スケジューリングポリシーの収束性とパフォーマンスにどのような影響を及えるか？

主な発見

A2cSchedulerは、シミュレート済みワークロードおよび学術的データセンターから収集した実データの両方で、競争力あるスケジューリングパフォーマンスを達成する。
A2Cベースのアプローチは、標準的なポリシー勾配法と比較して、勾配推定の分散を低減し、より安定的かつ効率的な訓練を実現する。
二重エージェントアーキテクチャにより、複雑なスケジューリング環境において、効果的なポリシー学習が可能となり、収束速度と安定性が向上する。
本手法は、異種のジョブおよびリソース特性を有するワークロードパターンに対しても、強力な一般化性能を示す。
クリティックの価値推定は、ポリシー更新の品質を顕著に向上させ、より良好な長期的スケジューリング結果をもたらす。
実世界のトレースにおけるパフォーマンスから明らかになるように、本アプローチは、スケジューリング効率およびリソース利用効率の点でベースライン手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。