Skip to main content
QUICK REVIEW

[論文レビュー] A Deep-Reinforcement Learning Approach for Software-Defined Networking Routing Optimization

Giorgio Stampa, Marta Arias|arXiv (Cornell University)|Sep 20, 2017
Software-Defined Networks and 5G参考文献 11被引用数 174
ひとこと要約

DRLベースのエージェントがSDNルーティングを最適化してネットワーク遅延を最小化し、未知のトラフィックにも一般化し、訓練後に1ステップでほぼ最適な構成を提供する。

ABSTRACT

In this paper we design and evaluate a Deep-Reinforcement Learning agent that optimizes routing. Our agent adapts automatically to current traffic conditions and proposes tailored configurations that attempt to minimize the network delay. Experiments show very promising performance. Moreover, this approach provides important operational advantages with respect to traditional optimization algorithms.

研究の動機と目的

  • SDNおよびKnowledge-Defined Networking (KDN)におけるルーティング最適化のために、機械学習、特にDRLの利用を動機付ける。
  • 遅延を最小化するために、トラフィック状況をルーティング構成へ写像する深いActor-Critic DRLエージェントを開発する。
  • 未知のトラフィック状態への一般化を示し、ランダムなルーティング構成と性能を比較する。

提案手法

  • 問題をオフポリシー、Actor-Critic、決定論的ポリシー勾配DRLエージェントとしてモデル化する。
  • 状態をTraffic Matrixで、行動をすべてのソース-デスティネーション経路を決定するリンク重みのタプルとして表現する。
  • ポリシーと価値関数を学習するために、2つの深層ニューラルネットワーク(ActorとCritic)を使用する。
  • 重力モデルのトラフィックマトリクスを用いてスケールフリー網でエージェントを訓練し、膨大な数のランダムなルーティング構成と比較評価する。
  • 局所最小値を避けるために、訓練中に確率的探索方針を採用する。
  • 報酬信号としてネットワーク遅延を用いて性能を測定し、シミュレーションにはOMNeT++を使用する。

実験結果

リサーチクエスチョン

  • RQ1変動するトラフィック需要の下で、DRLエージェントはネットワーク遅延を最小化するルーティング方針を学習できるか?
  • RQ2訓練済みのDRLエージェントは未知のトラフィックマトリクスに一般化し、ランダムなルーティング構成を上回るか?
  • RQ3従来の最適化手法と比較した場合、リアルタイムのルーティング最適化におけるDRLの運用上の利点は何か?

主な発見

  • DRLエージェントの性能は訓練時間とともに向上する。
  • 訓練済みDRLエージェントは、すべてのトラフィック強度においてベンチマークの第1四分位内のルーティング構成を一貫して達成する。
  • DRLは訓練後にほぼ最適な1ステップのルーティング決定を可能にし、リアルタイム制御上の利点を提供する。
  • DRLは従来手法に対して、モデルフリー学習やブラックボックス最適化などの利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。