QUICK REVIEW

[论文解读] Job scheduling on data centers with deep reinforcement learning

Sisheng Liang, Zhou Yang|arXiv (Cornell University)|Sep 15, 2019

Cloud Computing and Resource Management参考文献 10被引用 1

一句话总结

该论文提出A2cScheduler，一种基于优势行动-评论家（A2C）的深度强化学习方法，采用两个智能体——执行者与评论家——来优化异构数据中心中的作业调度。该方法降低了梯度方差，提升了训练效率，在模拟与真实工作负载上均实现了具有竞争力的性能。

ABSTRACT

Efficient job scheduling on data centers under heterogeneous complexity is crucial but challenging since it involves the allocation of multi-dimensional resources over time and space. To adapt the complex computing environment in data centers, we proposed an innovative Advantage Actor-Critic (A2C) deep reinforcement learning based approach called A2cScheduler for job scheduling. A2cScheduler consists of two agents, one of which, dubbed the actor, is responsible for learning the scheduling policy automatically and the other one, the critic, reduces the estimation error. Unlike previous policy gradient approaches, A2cScheduler is designed to reduce the gradient estimation variance and to update parameters efficiently. We show that the A2cScheduler can achieve competitive scheduling performance using both simulated workloads and real data collected from an academic data center.

研究动机与目标

解决具有异构、多维资源需求的数据中心中高效作业调度的挑战。
通过减少调度策略学习中梯度估计的方差，克服先前策略梯度方法的局限性。
设计一种可扩展、自适应的调度框架，能够在复杂计算环境中随时间与空间动态分配资源。
通过端到端深度强化学习提升调度效率与系统性能，而无需依赖手工设计的启发式规则。

提出的方法

采用具有两个独立智能体的优势行动-评论家（A2C）框架：执行者用于学习调度策略，评论家用于估计价值函数并减少策略梯度方差。
利用评论家的价值函数计算优势信号，相较于标准策略梯度方法，实现更稳定、更高效的策略更新。
使用时序差分学习端到端训练执行者-评论家网络，以优化长期调度目标。
设计能够编码多维资源使用情况与作业特征的状态表示，以实现有效的状态-动作价值估计。
应用经验回放与并行轨迹采样，提升样本效率，并在动态数据中心环境中加速训练。
采用基于优势的信用分配进行随机梯度下降优化，以提升收敛性与稳定性。

实验结果

研究问题

RQ1基于A2C的深度强化学习方法是否能在异构数据中心环境中优于传统调度启发式方法？
RQ2与标准策略梯度方法相比，A2C架构在作业调度中如何减少梯度方差并提升训练稳定性？
RQ3所提出的A2cScheduler在包括真实数据中心轨迹在内的多样化工作负载上，其泛化能力达到何种程度？
RQ4执行者-评论家设计在调度策略学习过程中，对探索与利用的平衡效果如何？
RQ5评论家的价值估计对调度策略收敛性与性能有何影响？

主要发现

A2cScheduler 在模拟工作负载和从学术数据中心收集的真实数据上均实现了具有竞争力的调度性能。
与标准策略梯度方法相比，基于A2C的方法显著降低了梯度估计方差，从而实现了更稳定、更高效的训练。
双智能体架构在复杂调度环境中实现了有效的策略学习，提升了收敛速度与稳定性。
该方法在不同工作负载模式下表现出强大的泛化能力，包括具有异构作业与资源特性的场景。
评论家的价值估计显著提升了策略更新质量，从而促进了更优的长期调度结果。
在真实数据轨迹上的性能表现表明，该方法在调度效率与资源利用率方面优于基线方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。