QUICK REVIEW

[論文レビュー] Automated Cloud Provisioning on AWS using Deep Reinforcement Learning

Zhiguang Wang, C. Gwon|arXiv (Cornell University)|Sep 13, 2017

Network Security and Intrusion Detection参考文献 15被引用数 29

ひとこと要約

本論文では、コストとパフォーマンスのバランスを最適化するポリシーを学習することで、AWSクラウドプロビジョニングを自動化するための深層強化学習（DRL）の使用を提案している。従来のしきい値ベースの自動スケーリングに比べ、優れた性能を示している。シミュレーションおよび実際のAWS展開において、ダブルデューリングDQNが標準DQNおよびテーブルベースQ学習に比べ、報酬の蓄積と安定性に優れていることが実証された。

ABSTRACT

As the use of cloud computing continues to rise, controlling cost becomes increasingly important. Yet there is evidence that 30\% - 45\% of cloud spend is wasted. Existing tools for cloud provisioning typically rely on highly trained human experts to specify what to monitor, thresholds for triggering action, and actions. In this paper we explore the use of reinforcement learning (RL) to acquire policies to balance performance and spend, allowing humans to specify what they want as opposed to how to do it, minimizing the need for cloud expertise. Empirical results with tabular, deep, and dueling double deep Q-learning with the CloudSim simulator show the utility of RL and the relative merits of the approaches. We also demonstrate effective policy transfer learning from an extremely simple simulator to CloudSim, with the next step being transfer from CloudSim to an Amazon Web Services physical environment.

研究の動機と目的

AWSにおけるクラウド支出の最適化を図り、最大45％の無駄なコストを削減する。
複雑な自動スケーリングポリシーの設定に専門知識に依存するのを減らし、『どうやるか』ではなく『何を達成するか』に焦点を移す。
コストとパフォーマンスの報酬から直接最適なプロビジョニングポリシーを学習する強化学習フレームワークの開発。
単純なシミュレータからリアルなCloudSim環境、最終的には実際のAWS環境へのポリシーの移行を可能にし、トレーニングコストと時間を削減。
今後のクラウド自動化における強化学習研究を支援するため、GitHubで再利用可能なAWS RL環境を提供。

提案手法

AWS CloudWatchメトリクスを状態変数として用いた強化学習環境を定義：インスタンス数、CPU利用率、受信パケット数、ロードバランサの遅延。
報酬関数を密度高く設計し、高コストと高遅延に対してペナルティを課し、低リソース利用率と低応答時間に対して報酬を与える。
3つのDRLアルゴリズムを実装：テーブルベースQ学習、ディープQネットワーク（DQN）、ダブルデューリングディープQネットワーク（D3QN）によるポリシー学習。
トレーニングをCloudSimベースのシミュレーション環境で実施後、トランスファーラーニングを用いて実AWS環境にポリシーを移行。
再現可能なAWS環境を構築するためのCloudFormationスクリプトを用意。
高速で単純なシミュレータで事前学習した重みを初期値としてDQNに適用し、CloudSimおよび実AWS環境での収束を加速。

実験結果

リサーチクエスチョン

RQ1深層強化学習は、人為的に定義されたしきい値なしに、コストとパフォーマンスのバランスを最適化するクラウドプロビジョニングポリシーを効果的に学習できるか？
RQ2テーブルベースQ学習、DQN、D3QNといった異なるDRLアーキテクチャは、クラウドプロビジョニングタスクにおける報酬蓄積とポリシーの安定性において、どのように比較されるか？
RQ3簡素なシミュレータで学習したポリシーが、より複雑なCloudSim環境および最終的には実AWSの本番環境にどれほど効果的に移行できるか？
RQ4実世界のAWSワークロードにおいて、RLベースのプロビジョニングは、従来のしきい値ベースの自動スケーリングと比べてどのように性能を発揮するか？
RQ5トランスファーラーニングは、本番環境に効果的なクラウドプロビジョニングポリシーを展開するためのトレーニング時間とコストを顕著に短縮できるか？

主な発見

ダブルデューリングディープQネットワーク（D3QN）は、トレーニング中の報酬蓄積とポリシーの安定性において、標準DQNおよびテーブルベースQ学習を上回っている。
D3QNポリシーはコストとパフォーマンスのトレードオフを的確に制御し、変動するワークロード下でも余剰インスタンスのスケーリングを回避し、無駄な待機時間を削減している。
高速で単純なシミュレータからCloudSimへのトランスファーラーニングにより、初期学習が速くなり、平均報酬が向上した。これは、実環境への展開が可能であることを示している。
実AWS環境での展開において、D3QNポリシーは時間経過とともに報酬の分散が小さくなり、ベースライン手法に比べてより安定的かつ予測可能な性能を示している。
しきい値ベースの自動スケーリングポリシーは、報酬の分散が大きく、特にテストデータで観察されたDay 10のワークロードピーク時において、適応性に欠けている。
DRLポリシーの有効性を完全に検証するには、AWSでの長期的なトレーニングが必要である。現在の結果では、性能の向上が長期間にわたるトレーニング後のみに顕著に現れる傾向にある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。