QUICK REVIEW

[論文レビュー] Iroko: A Framework to Prototype Reinforcement Learning for Data Center Traffic Control

Fabian Ruffy, Michael Przystupa|arXiv (Cornell University)|Dec 24, 2018

Software-Defined Networks and 5G参考文献 49被引用数 20

ひとこと要約

Iroko は、データセンターのトラフィック制御のためのオープンソースの強化学習（RL）エミュレータであり、OpenAI Gym と統合されており、RL および従来の混雑制御（CC）アルゴリズムの公平で再現可能なベンチマーク評価を可能にします。Dumbbell およびファットツリー型トポロジにおいて、DDPG と PPO が TCP New Vegas を上回る報酬とキュー管理性能を示しており、RL が能動的かつ高性能なデータセンターネットワーキングの可能性を示しています。

ABSTRACT

Recent networking research has identified that data-driven congestion control (CC) can be more efficient than traditional CC in TCP. Deep reinforcement learning (RL), in particular, has the potential to learn optimal network policies. However, RL suffers from instability and over-fitting, deficiencies which so far render it unacceptable for use in datacenter networks. In this paper, we analyze the requirements for RL to succeed in the datacenter context. We present a new emulator, Iroko, which we developed to support different network topologies, congestion control algorithms, and deployment scenarios. Iroko interfaces with the OpenAI gym toolkit, which allows for fast and fair evaluation of different RL and traditional CC algorithms under the same conditions. We present initial benchmarks on three deep RL algorithms compared to TCP New Vegas and DCTCP. Our results show that these algorithms are able to learn a CC policy which exceeds the performance of TCP New Vegas on a dumbbell and fat-tree topology. We make our emulator open-source and publicly available: https://github.com/dcgym/iroko

研究の動機と目的

データセンターネットワーキングにおける強化学習のための標準的で再現可能な評価プラットフォームの不足に対処する。
深層強化学習アルゴリズムと TCP New Vegas や DCTCP のような従来の混雑制御プロトコルとの間で公平な比較を可能にする。
現実的なトポロジとトラフィックパターンを想定したデータセンター環境における、RLに基づく混雑制御の実現可能性と性能を調査する。
さまざまなネットワークトポロジ、トランスポートプロトコル（TCP/UDP）、RLアルゴリズムをサポートする柔軟で拡張可能なエミュレータを提供する。
RLを用いた能動的でデータドリブンな混雑制御の今後の研究の基盤を構築する。

提案手法

Iroko を、設定可能なネットワークパラメータとトラフィックワークロードを持つデータセンターのトポロジ（例：dumbbell、fat-tree）をエミュレートするネットワークエミュレータとして設計する。
Iroko を OpenAI Gym インターフェースと統合することで、RLエージェントの相互作用を標準化し、RLエージェントの一貫した訓練と評価を可能にする。
各環境ステップに 0.5 秒のタイムステップを用い、キュー状態と帯域幅利用率の時間的変化を十分に観測可能にする。
グローバルなネットワーク状態（例：キュー長、リンク利用率）を観測し、ホストの送信レートを制御することで報酬を最適化する集中型RLエージェントを実装する。
スループット、公平性、キュー安定性を含むネットワーク全体のユーティリティに基づく報酬関数を定義し、ポリシー学習を誘導する。
従来のフロー制御メカニズムとは独立して影響を評価できるように、TCP および UDP トランスポートプロトコルの両方をサポートする。

実験結果

リサーチクエスチョン

RQ1深層強化学習アルゴリズムは、従来のTCPベースの方式を上回る効果的な混雑制御ポリシーを、データセンター網で学習できるか？
RQ2TCP と UDP トランスポートの違いといった異なるネットワーク環境下で、DDPG、PPO、REINFORCE といった異なるRLアルゴリズムの性能はいかがなっているか？
RQ3ネットワークトポロジ（dumbbell 対 fat-tree）やトラフィックパターンが、RLベースの混雑制御の収束性と性能に与える影響は何か？
RQ4粗いアクションの粒度（0.5 秒のタイムステップ）が、リアルタイムのデータセンター環境におけるRLエージェントの学習と性能に与える影響は？
RQ5RLベースのエージェントは、DCTCP や TCP New Vegas のような手動チューニング済みプロトコルに比べて、どれほど公平性、スループット、キュー安定性を向上させられるか？

主な発見

DDPG は、dumbbell およびファットツリー型トポロジの両方で最高の累積報酬を達成し、報酬とキュー管理の両面で TCP New Vegas を上回った。
PPO は、ファットツリー型トポロジにおいて帯域幅利用率の向上が継続的に見られたが、変動性が高かったため、さらなるチューニングの余地があることが示唆された。
REINFORCE は、TCP との組み合わせで特に優れた性能を示した。これは、TCP の確率的挙動に起因する環境ノイズへの感受性が高いためである。
DDPG、PPO、REINFORCE の3つのRLアルゴリズムすべてが、dumbbell トポロジにおける混雑リンクのキュー蓄積を最小限に抑え、TCP New Vegas を上回る報酬を達成した。
DCTCP はファットツリー型トポロジにおいて未だ優勝を維持しており、粗い粒度の学習ベース制御で、高度に最適化されたカーネルレベルプロトコルを凌駕するのは困難であることが示された。
結果から、RLはデータセンターにおいて公平で効率的な混雑制御ポリシーを学習可能であるが、環境設計、アクションの粒度、アルゴリズム選定に強く依存することが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。