QUICK REVIEW

[논문 리뷰] A Deep-Reinforcement Learning Approach for Software-Defined Networking Routing Optimization

Giorgio Stampa, Marta Arias|arXiv (Cornell University)|2017. 09. 20.

Software-Defined Networks and 5G참고 문헌 11인용 수 174

한 줄 요약

DRL 기반 에이전트가 SDN 라우팅을 최적화하여 네트워크 지연을 최소화하고, 보지 않은 트래픽에도 일반화하며, 학습 후 한 단계에서 거의 최적에 가까운 구성들을 제공한다.

ABSTRACT

In this paper we design and evaluate a Deep-Reinforcement Learning agent that optimizes routing. Our agent adapts automatically to current traffic conditions and proposes tailored configurations that attempt to minimize the network delay. Experiments show very promising performance. Moreover, this approach provides important operational advantages with respect to traditional optimization algorithms.

연구 동기 및 목표

SDN 및 Knowledge-Defined Networking (KDN)에서 라우팅 최적화를 위해 기계 학습, 특히 DRL을 사용하는 것을 동기 부여한다.
지연을 최소화하기 위해 트래픽 상태를 라우팅 구성에 매핑하는 심층 Actor-Critic DRL 에이전트를 개발한다.
보이지 않는 트래픽 상태에 대한 일반화를 입증하고 무작위 라우팅 구성과의 성능을 비교한다.

제안 방법

문제를 off-policy, actor-critic, deterministic policy gradient DRL 에이전트로 모델링한다.
state를 Traffic Matrix로, actions를 모든 소스-목적지 경로를 결정하는 링크 가중치의 튜플로 표현한다.
정책 및 가치 함수를 학습하기 위해 두 개의 심층 신경망(actor와 critic)을 사용한다.
scale-free 네트워크에서 gravity-model 트래픽 매트릭스를 사용하여 에이전트를 학습시키고, 많은 무작위 라우팅 구성에 대해 평가한다.
학습 중 지역 최솟값에 빠지지 않도록 확률적 탐색 정책을 사용한다.
네트워크 지연을 보상 신호로 측정하고 시뮬레이션은 OMNeT++를 사용한다.

실험 결과

연구 질문

RQ1다양한 트래픽 수요 하에서 DRL 에이전트가 네트워크 지연을 최소화하는 라우팅 정책을 학습할 수 있는가?
RQ2학습된 DRL 에이전트가 보이지 않는 트래픽 매트릭스에 일반화하고 무작위 라우팅 구성보다 성능이 우수한가?
RQ3전통적 최적화 방법과 비교하여 실시간 라우팅 최적화에서 DRL의 운영상 이점은 무엇인가?

주요 결과

DRL 에이전트의 성능은 학습 시간에 따라 향상된다.
학습된 DRL 에이전트는 모든 트래픽 강도에서 벤치마크의 1사분위수 이내의 라우팅 구성을 일관되게 달성한다.
학습 후 DRL은 거의 최적에 가까운 1단계 라우팅 결정을 가능하게 하여 실시간 제어의 잠재적 이점을 제공한다.
DRL은 전통적인 기법에 비해 모델-프리 학습 및 블랙박스 최적화와 같은 이점을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.