Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning meets Graph Neural Networks: exploring a routing optimization use case

Paul Almasan, José Suárez‐Varela|arXiv (Cornell University)|2019. 10. 16.
Digital Transformation in Industry인용 수 46
한 줄 요약

논문은 그래프 신경망(GNN)을 활용해 라우팅 최적화를 보지탐이 아닌 unseen topology에 일반화하는 DRL 에이전트를 제안하며, 새로운 토폴로지에서 최첨단 DRL을 능가한다.

ABSTRACT

Deep Reinforcement Learning (DRL) has shown a dramatic improvement in decision-making and automated control problems. Consequently, DRL represents a promising technique to efficiently solve many relevant optimization problems (e.g., routing) in self-driving networks. However, existing DRL-based solutions applied to networking fail to generalize, which means that they are not able to operate properly when applied to network topologies not observed during training. This lack of generalization capability significantly hinders the deployment of DRL technologies in production networks. This is because state-of-the-art DRL-based networking solutions use standard neural networks (e.g., fully connected, convolutional), which are not suited to learn from information structured as graphs. In this paper, we integrate Graph Neural Networks (GNN) into DRL agents and we design a problem specific action space to enable generalization. GNNs are Deep Learning models inherently designed to generalize over graphs of different sizes and structures. This allows the proposed GNN-based DRL agent to learn and generalize over arbitrary network topologies. We test our DRL+GNN agent in a routing optimization use case in optical networks and evaluate it on 180 and 232 unseen synthetic and real-world network topologies respectively. The results show that the DRL+GNN agent is able to outperform state-of-the-art solutions in topologies never seen during training.

연구 동기 및 목표

  • 강하게 일반화된 토폴로지로 훈련에 포함되지 않은 네트워크 최적화에서 DRL의 필요성에 동기를 부여합니다.
  • 그래프 구조의 네트워크에서 일반화되는 라우팅 정책을 학습하기 위해 GNN으로 강화된 DRL 에이전트를 도입합니다.
  • DRL+GNN 에이전트가 synthetic 및 real-world 토폴로지에서 SoA DRL을 능가함을 입증합니다.
  • 생산 네트워크에 대한 배치 가능성, 낮은 추론 오버헤드, 확장성에 대한 시사점을 보여줍니다.

제안 방법

  • 그래프 구조의 네트워크 토폴로지에서 작동하기 위해 그래프 신경망(GNN)과 딥 강화학습(DRL)을 통합합니다.
  • 소스-목적 쌍당 k=4개의 최단 경로를 사용하여 라우팅 행동을 그래프에 내장된 선택으로 표현합니다.
  • Q-값을 GNN으로 추정하고 readout DNN을 사용하는 DQN 스타일 objective를 사용합니다.
  • 환경을 링크 수준 특징(용량, betweenness)과 동작으로 인해 생성된 대역폭 할당을 원-핫 인코딩 입력으로 모델링합니다.
  • RNN이 있는 MPNN을 적용하여 T 반복 동안 링크 상태를 진화시키고 Q-값을 생성합니다.
  • 경험 재생과 epsilon-greedy 탐색으로 학습하고, SGD 및 정규화 기법으로 최적화합니다.

실험 결과

연구 질문

  • RQ1훈련 중에 보지 못한 네트워크 토폴로지에 대한 라우팅 결정을 GNN 보강 DRL 에이전트가 일반화할 수 있습니까?
  • RQ2DRL+GNN 접근법이 합성 및 실제 토폴로지에서 SoA DRL 라우팅 솔루션과 어떻게 비교됩니다?
  • RQ3토폴로지 크기, 링크 특징, 행동 공간 설계가 일반화 가능한 라우팅 정책 학습에 어떤 영향을 줍니까?
  • RQ4생산 환경과 같은 네트워크에 배치될 때 DRL+GNN 에이전트의 추론 오버헤드와 확장성은 어느 정도입니까?

주요 결과

  • DRL+GNN 에이전트는 보지 못한 토폴로지에 일반화하고, Nsfnet 및 Geant2 토폴로지에서 SoA DRL을 능가합니다.
  • 180개의 unseen synthetic 및 232개의 unseen real-world 토폴로지의 평가에서 DRL+GNN 접근은 SoA DRL보다 더 큰 대역폭 할당을 달성합니다.
  • 하나의 토폴로지(Nsfnet)에서 학습된 에이전트가 다른 토폴로지(Geant2)에서 SoA DRL을 능가할 수 있어 강력한 일반화를 입증합니다.
  • 모델은 ms 규모의 의사결정과 네트워크 크기에 따른 선형 비용 증가로 생산 환경 배포를 지원합니다.
  • 링크 중간정점 중심성(betweenness)을 특징으로 사용하면 수렴이 가속되고 정책 학습이 향상됩니다.
  • 이 접근 방식은 새로운 토폴로지에 대해 재학습이 필요 없는 보편 모델을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.