QUICK REVIEW

[論文レビュー] Experience-driven Networking: A Deep Reinforcement Learning based Approach

Zhiyuan Xu, Jian Tang|arXiv (Cornell University)|Jan 17, 2018

Software-Defined Networks and 5G参考文献 17被引用数 50

ひとこと要約

DRL-TE は、動的ネットワークにおけるエンドツーエンドのユーティリティ、遅延、スループットを最適化するために TE-aware 探索と優先度付き経験リプレイを用いる、モデルフリーの DRL ベースのトラフィックエンジニアリングフレームワークであり、ns-3 シミュレーションでベースラインや DDPG を上回る。

ABSTRACT

Modern communication networks have become very complicated and highly dynamic, which makes them hard to model, predict and control. In this paper, we develop a novel experience-driven approach that can learn to well control a communication network from its own experience rather than an accurate mathematical model, just as a human learns a new skill (such as driving, swimming, etc). Specifically, we, for the first time, propose to leverage emerging Deep Reinforcement Learning (DRL) for enabling model-free control in communication networks; and present a novel and highly effective DRL-based control framework, DRL-TE, for a fundamental networking problem: Traffic Engineering (TE). The proposed framework maximizes a widely-used utility function by jointly learning network environment and its dynamics, and making decisions under the guidance of powerful Deep Neural Networks (DNNs). We propose two new techniques, TE-aware exploration and actor-critic-based prioritized experience replay, to optimize the general DRL framework particularly for TE. To validate and evaluate the proposed framework, we implemented it in ns-3, and tested it comprehensively with both representative and randomly generated network topologies. Extensive packet-level simulation results show that 1) compared to several widely-used baseline methods, DRL-TE significantly reduces end-to-end delay and consistently improves the network utility, while offering better or comparable throughput; 2) DRL-TE is robust to network changes; and 3) DRL-TE consistently outperforms a state-ofthe-art DRL method (for continuous control), Deep Deterministic Policy Gradient (DDPG), which, however, does not offer satisfying performance.

研究の動機と目的

動的ネットワークにおけるモデルフリーで体験駆動のトラフィックエンジニアリング手法を動機づける。
明示的なモデルを用いずにネットワークダイナミクスと制御ポリシーを学習する DRL ベースの制御フレームワークを開発する。
TE-aware 探索と actor-critic 優先度付き経験リプレイを提案し、TE のための DRL を最適化する。
複数のトポロジーに対するパケットレベル ns-3 シミュレーションを用いて手法を検証し、ベースラインと比較する。

提案手法

TE を各セッションについて状態 s = {xk, zk} として連続制御 DRL 問題として定式化する。
すべてのセッションに対する候補パス間の分割比を行動として定義する。
TE対応探索によって導かれる DDPG ベースのアクター-クリティック DRL を使用する。
TD誤差とQ勾配という二重優先度指標を用いたアクター-クリティック訓練のための優先度付き経験リプレイを導入する。
安定性のためのターゲットネットワークを備えた二層のニューラルネットワークのアクター/クリティックを用いて ns-3 に DRL-TE を実装する。
NSFNET, ARPANET および BRITE 生成トポロジーに対して Shortest Path、Load Balance、NUM-TE、DDPG と比較して評価する。

実験結果

リサーチクエスチョン

RQ1正確なネットワークモデルなしで、モデルフリーの DRL アプローチは効果的な TE ポリシーを学習できるか？
RQ2TE対応探索と優先度付き経験リプレイは、連続TE問題に対する DRL の性能を改善するか？
RQ3従来手法および DDPG と比較して、エンドツーエンド遅延、スループット、全体のネットワークユーティリティの観点で DRL-TE はどのように性能を示すか？
RQ4変化するネットワーク条件とトポロジに対して DRL-TE フレームワークは頑健か？

主な発見

DRL-TE は NSFNET、ARPANET、BRITE トポロジー全体で SP、LB、NUM、DDPG と比較してエンドツーエンド遅延を大幅に低減する（例：NSF で最大 74.6% の遅延削減）。
NSF トポロジーで、それぞれ SP、LB、NUM、DDPG に対して平均遅延削減が 55.4%、47.1%、70.5%、44.2% に達する。
DRL-TE は TE シナリオにおける連続制御で、DRL-TE は最先端の DRL 手法（DDPG）を一貫して上回る。
DRL-TE はネットワークの変化に対して頑健で、ネットワークユーティリティを向上させつつ、スループットはより良くなるか同等である。
本フレームワークには新規の TE対応探索（ベースTEソリューションが探索を導く）と、TD誤差とQ勾配に基づく二段階の優先度を用いたアクター-クリティック優先度付き経験リプレイが含まれる。
NSFNET/ARPANET の結果は、変動するトラフィック需要の下でエンドツーエンドのユーティリティと遅延に顕著な改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。