QUICK REVIEW

[논문 리뷰] Scheduling and Power Control for Wireless Multicast Systems via Deep Reinforcement Learning

Ramkumar Raghu|arXiv (Cornell University)|2021. 11. 23.

Advanced Wireless Network Optimization참고 문헌 50인용 수 7

한 줄 요약

이 논문은 흐림 채널 하에서 품질 보장(QoS)을 최적화하기 위해 다중 시간스케일 딥 Q-네트워크와 함수 근사 기법을 사용한 딥 강화학습(DRL) 기반 프레임워크를 제안한다. 이 방법은 대기열 제어와 전력 제어의 스케일링 가능하고 적응형이며 교차 계층 최적화를 실현하며, 동적 환경에서 평균 체류 시간 향상과 제약 조건 이행을 입증한다.

ABSTRACT

Multicasting in wireless systems is a natural way to exploit the redundancy in user requests in a content centric network. Power control and optimal scheduling can significantly improve the wireless multicast network&rsquo;s performance under fading. However, the model-based approaches for power control and scheduling studied earlier are not scalable to large state spaces or changing system dynamics. In this paper, we use deep reinforcement learning, where we use function approximation of the Q-function via a deep neural network to obtain a power control policy that matches the optimal policy for a small network. We show that power control policy can be learned for reasonably large systems via this approach. Further, we use multi-timescale stochastic optimization to maintain the average power constraint. We demonstrate that a slight modification of the learning algorithm allows tracking of time varying system statistics. Finally, we extend the multi-time scale approach to simultaneously learn the optimal queuing strategy along with power control. We demonstrate the scalability, tracking and cross-layer optimization capabilities of our algorithms via simulations. The proposed multi-time scale approach can be used in general large state-space dynamical systems with multiple objectives and constraints, and may be of independent interest.

연구 동기 및 목표

대규모 상태공간을 가진 무선 멀티캐스트 시스템에서 모델 기반 전력 제어 및 스케줄링의 확장성과 적응성 한계를 해결하기 위해.
fading 하에서 품질 보장(QoS)을 향상시키기 위해 대기열 전략과 전력 제어를 공동 최적화하기 위해.
채널 통계나 시스템 동역학에 대한 사전 지식 없이 온라인 학습을 통해 최적 정책을 학습할 수 있도록 하기 위해.
다양한 시간스케일의 확률적 최적화를 통해 평균 전력 제약 조건을 유지하고 변화하는 시스템 통계를 추적하기 위해.
실제 무선 멀티캐스트 환경에서 딥 강화학습을 통해 대기열 제어와 전력 제제어의 교차 계층 최적화를 입증하기 위해.

제안 방법

고차원 상태 및 행동 공간을 가진 대규모 MDP에서 전력 제어를 위한 Q-함수를 학습하기 위해 기능 근사 기법을 적용한 딥 Q-네트워크(DQN)를 제안한다.
재생 메모리와 온라인 학습을 활용한 새로운 딥 보조 기울기 근사(DAGA) 알고리즘을 도입하여 기울기 추정의 신뢰도를 높이고 분산을 감소시킨다.
정책, 가치 함수, 라그랑주 승수에 대해 별도의 학습률을 사용하는 다중 시간스케일 확률적 최적화를 통해 평균 전력 제약 조건을 강제한다.
제약 조건 이행에 대한 내성 요구 수준에 따라 학습률을 고정시켜 시간에 따라 변화하는 시스템 통계를 추적할 수 있도록 DQN 알고리즘을 수정한다.
동시에 최적의 대기열 제어 및 전력 제어 정책을 학습할 수 있도록 다중 시간스케일 업데이트를 적용한 새로운 액터-크리틱 DQN(AC-DQN)으로 프레임워크를 확장한다.
제약 조건을 학습 목표에 통합하기 위해 라그랑주 리 릿지화 접근법을 사용하여 안정적이고 실현 가능한 정책 학습을 가능하게 한다.

실험 결과

연구 질문

RQ1딥 강화학습은 동역학이 알려지지 않은 대규모 상태공간을 가진 무선 멀티캐스트 시스템에서 최적의 전력 제어 정책을 효과적으로 학습할 수 있는가?
RQ2동적 무선 환경에서 온라인 학습 중 평균 전력 제약 조건을 어떻게 유지할 수 있는가?
RQ3제안된 방법은 사용자 요청 빈도와 채널 조건과 같은 시스템 통계의 변화를 시간에 따라 추적할 수 있는가?
RQ4대기열 제어와 전력 제어를 공동 최적화하면 분리된 접근법에 비해 평균 체류 시간을 얼마나 향상시킬 수 있는가?
RQ5다중 시간스케일 DRL 프레임워크는 다중 제약 조건과 다중 목표를 가진 시스템으로 일반화될 수 있는가?

주요 결과

제안된 DRL 기반 방법은 소규모 네트워크에서 최적 정책과 유사한 평균 체류 시간을 달성하여 강력한 학습 능력을 입증한다.
알고리즘은 다양한 도착률에서 평균 전력 제약 조건을 성공적으로 유지하며, 약 10^5 시간 단위 이내에 평균 전력이 수렴함을 확인했다.
변동하는 도착률 하에서 라그랑주 승수와 전력 수준의 안정적 수렴을 통해 시간에 따라 변화하는 시스템 통계를 효과적으로 추적함을 입증했다.
IDA(향상된 DQN 알고리즘)는 다양한 도착률과 채널 조건에서 기준선(재전송, 루프백, 연기) 중 최적의 대기열 전략 선택을 달성했다.
다중 시간스케일 접근법은 대기열 제어 및 전력 제어 정책의 동시 학습을 가능하게 하여 낮은 분산과 높은 신뢰도를 가진 기울기 업데이트를 실현하며 교차 계층 최적화를 달성했다.
프레임워크는 확장 가능하고 일반화 가능하며, 다중 기지국 시나리오 및 캐싱 정책 학습으로의 확장 가능성이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.