QUICK REVIEW

[论文解读] Automated Cloud Provisioning on AWS using Deep Reinforcement Learning

Zhiguang Wang, C. Gwon|arXiv (Cornell University)|Sep 13, 2017

Network Security and Intrusion Detection参考文献 15被引用 29

一句话总结

本文提出使用深度强化学习（DRL）自动化AWS云资源部署，通过学习在成本与性能之间取得平衡的策略，超越传统的基于阈值的自动扩展。结果表明，在仿真和真实的AWS部署中，Double Dueling DQN在奖励累积和稳定性方面均优于标准DQN和表格型Q-learning。

ABSTRACT

As the use of cloud computing continues to rise, controlling cost becomes increasingly important. Yet there is evidence that 30\% - 45\% of cloud spend is wasted. Existing tools for cloud provisioning typically rely on highly trained human experts to specify what to monitor, thresholds for triggering action, and actions. In this paper we explore the use of reinforcement learning (RL) to acquire policies to balance performance and spend, allowing humans to specify what they want as opposed to how to do it, minimizing the need for cloud expertise. Empirical results with tabular, deep, and dueling double deep Q-learning with the CloudSim simulator show the utility of RL and the relative merits of the approaches. We also demonstrate effective policy transfer learning from an extremely simple simulator to CloudSim, with the next step being transfer from CloudSim to an Amazon Web Services physical environment.

研究动机与目标

通过自动化AWS中的成本-性能优化，解决高达45%的云支出浪费问题。
减少对专家知识的依赖，通过从'如何操作'转变为'目标是什么'，实现复杂自动扩展策略的配置。
开发一种强化学习框架，直接从成本和性能奖励中学习最优资源配置策略。
实现从简单仿真器到真实CloudSim环境，最终到真实AWS环境的策略迁移，以降低训练成本和时间。
通过GitHub提供可复用的AWS强化学习环境，支持未来基于强化学习的云自动化研究。

提出的方法

使用AWS CloudWatch指标作为状态变量，定义强化学习环境：实例数量、CPU使用率、入站网络数据包数和负载均衡器延迟。
设计密集型奖励函数，对高成本和高延迟进行惩罚，同时奖励低资源利用率和低响应时间。
实现三种DRL算法：表格型Q-learning、深度Q网络（DQN）和双Dueling深度Q网络（D3QN），用于策略学习。
在基于CloudSim的仿真环境中训练策略，随后通过迁移学习将其迁移到真实AWS部署中。
使用CloudFormation脚本部署可复现的AWS环境，用于强化学习实验。
通过使用来自快速、简单仿真器的预训练权重初始化DQN，实现迁移学习，以加速在CloudSim和真实AWS环境中的收敛。

实验结果

研究问题

RQ1深度强化学习能否在无需人工定义阈值的情况下，有效学习到在成本与性能之间取得平衡的最优云资源配置策略？
RQ2在云资源配置任务中，不同DRL架构（表格型Q-learning、DQN和D3QN）在奖励累积和策略稳定性方面表现如何比较？
RQ3在简化仿真器中训练的策略在多大程度上可成功迁移到更复杂的CloudSim环境，并最终迁移到真实的AWS生产环境？
RQ4在真实AWS工作负载中，基于强化学习的资源配置性能与传统的基于阈值的自动扩展相比如何？
RQ5迁移学习能否显著减少在生产环境中部署有效云资源配置策略的训练时间和成本？

主要发现

双Dueling深度Q网络（D3QN）在训练过程中的累积奖励和策略稳定性方面，均优于标准DQN和表格型Q-learning。
D3QN策略成功实现了成本与性能的权衡，减少了空闲时间，并在工作负载波动时避免了过度扩展实例。
从快速、简单的仿真器向CloudSim进行迁移学习，显著加快了初始学习速度并提升了平均奖励，表明其在真实环境部署中的可行性。
在真实AWS部署中，D3QN策略随时间推移表现出更低的奖励方差，表明其性能更加稳定和可预测，优于基线方法。
基于阈值的自动扩展策略表现出更高的奖励方差和更低的适应性，尤其在工作负载突增（如测试数据中第10天）时表现更差。
需要在AWS上进行更长的训练周期，才能充分验证DRL策略的实用性，因为当前结果表明性能提升仅在长时间训练后才显现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。