QUICK REVIEW

[논문 리뷰] MVFST-RL: An Asynchronous RL Framework for Congestion Control with Delayed Actions

Viswanath Sivakumar, Delalleau, Olivier|arXiv (Cornell University)|2019. 10. 09.

Network Traffic and Congestion Control참고 문헌 13인용 수 33

한 줄 요약

mvfst-rl을 소개합니다. 비동기 강화 학습 프레임워크로, QUIC에서 지연된 행동을 다루는 혼잡 제어를 IMPALA의 off-policy 보정과 Pantheon 에뮬레이터를 사용해 구현합니다.

ABSTRACT

Effective network congestion control strategies are key to keeping the Internet (or any large computer network) operational. Network congestion control has been dominated by hand-crafted heuristics for decades. Recently, ReinforcementLearning (RL) has emerged as an alternative to automatically optimize such control strategies. Research so far has primarily considered RL interfaces which block the sender while an agent considers its next action. This is largely an artifact of building on top of frameworks designed for RL in games (e.g. OpenAI Gym). However, this does not translate to real-world networking environments, where a network sender waiting on a policy without sending data leads to under-utilization of bandwidth. We instead propose to formulate congestion control with an asynchronous RL agent that handles delayed actions. We present MVFST-RL, a scalable framework for congestion control in the QUIC transport protocol that leverages state-of-the-art in asynchronous RL training with off-policy correction. We analyze modeling improvements to mitigate the deviation from Markovian dynamics, and evaluate our method on emulated networks from the Pantheon benchmark platform. The source code is publicly available at https://github.com/facebookresearch/mvfst-rl.

연구 동기 및 목표

blocking RL 에이전트를 대체하기 위한 실세계 네트워크에 적합한 비동기 프레임워크의 도입을 동기 부여한다.
지연된 행동을 갖는 MDP로의 혼잡 제어 형식화와 행동 이력을 포착하는 확장된 상태를 포함한다.
QUIC 기반 mvfst, TorchBeast IMPALA, 및 Pantheon 네트워크 에뮬레이터를 사용해 mvfst-rl을 개발하고 평가한다.
오프 폴리시 보정(V-trace)이 비동기 학습을 가능하게 하여 환경 차단 없이 학습을 수행할 수 있음을 보여준다.
다양한 네트워크 시나리오와 보상 정규화 전략에 걸친 강건성 및 일반화 도전과제를 조사한다.

제안 방법

지연된 행동과 행동 이력을 포함하는 확장된 상태를 갖는 MDP로서 혼잡 제어를 형식화한다.
cwnd, cwnd/2, cwnd-10, cwnd+10, cwnd×2를 업데이트하는 이산적 행동 공간과 대역폭과 지연의 균형을 맞추는 보상을 정의한다.
환경 차단 없이 학습하기 위해 V-trace 오프 폴리시 보정을 사용하는 IMPALA 기반의 비동기 Actor-Critic 프레임워크를 사용한다.
훈련 후 TorchScript를 통해 배포를 가능하게 하도록 mvfst(QUIC)와 Pantheon 네트워크 에뮬레이터 및 TorchBeast를 통합한다.
다중 시나리오 학습의 안정성을 높이기 위해 시나리오별 평균과 표준편차의 온라인 추정치를 활용한 보상 정규화를 도입한다.
긴 시계열 효과를 완화하기 위해 정책 헤드와 가치 헤드를 가진 LSTM 기반 모델 트렁크를 채택하고, 에피소드 종료 시 가치를 부트스트래핑한다.

실험 결과

연구 질문

RQ1비동기 RL에서 액션 지연이 있는 실제 네트워크 환경에서 혼잡 제어를 어떻게 학습할 수 있는가?
RQ2최근 액션 이력을 상태에 추가하는 것이 지연된 행동에서 학습을 개선하는가?
RQ3오프폴리시 보정 비동기 학습(V-trace)이 경쟁력 있는 혼잡 제어 성능을 낼 수 있는가?
RQ4mvfst-rl이 보지 못한 네트워크 시나리오에 대해 일반화하는 정도는 얼마나 되며 보상 정규화가 이것에 어떤 영향을 미치는가?
RQ5LSTM 포함 및 엔트로피 정규화가 학습 안정성과 성능에 미치는 영향은 무엇인가?

주요 결과

mvfst-rl은 보정된 Pantheon 에뮬레이터에서 의미 있는 처리량-지연 트레이드오프를 달성하며 무작위 동작 기초선보다 우수한 성능을 보인다.
모델은 높은 처리량의 혼잡 제어에 비해 더 낮은 처리량이 나오는 경향이 있어 지연도 더 낮아지는 트레이드오프를 보이며, 보상 설정을 통해 이 트레이드오프를 조정할 수 있음을 시사한다.
다른 RTT와 더 작은 버퍼를 가진 보지 못한 네트워크 시나리오는 일반화를 저해하고 학습 조건에 과적합되었을 가능성을 시사한다.
엔트로피 정규화는 신중한 조정이 필요하다; 너무 적으면 불안정하고 너무 많으면 성능이 감소한다.
LSTM을 포함하면 비순환 모델에 비해 성능이 크게 향상되며 부분 관찰성에서 메모리의 역할을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.