QUICK REVIEW

[논문 리뷰] Optimized Computation Offloading Performance in Virtual Edge Computing Systems via Deep Reinforcement Learning

Xianfu Chen, Honggang Zhang|arXiv (Cornell University)|2018. 05. 16.

IoT and Edge/Fog Computing참고 문헌 25인용 수 27

한 줄 요약

이 논문은 초고밀도 및 슬라이싱된 라디오 액세스 네트워크에서 가상화된 모바일 엣지 컴퓨팅(MEC)을 위한 딥 강화학습 기반의 계산 오프로딩 프레임워크를 제안한다. 오프로딩을 마르코프 결정 과정으로 모델링하고, Q함수 분해를 활용한 더블 딥 Q넷을 적용하여 네트워크 동역학에 대한 사전 지식 없이도 최적의 오프로딩 정책을 학습하며, 기존 기준 대비 장기적인 유틸리티 향상이 뚜렷하다.

ABSTRACT

To improve the quality of computation experience for mobile devices, mobile-edge computing (MEC) is a promising paradigm by providing computing capabilities in close proximity within a sliced radio access network (RAN), which supports both traditional communication and MEC services. Nevertheless, the design of computation offloading policies for a virtual MEC system remains challenging. Specifically, whether to execute a computation task at the mobile device or to offload it for MEC server execution should adapt to the time-varying network dynamics. In this paper, we consider MEC for a representative mobile user in an ultra-dense sliced RAN, where multiple base stations (BSs) are available to be selected for computation offloading. The problem of solving an optimal computation offloading policy is modelled as a Markov decision process, where our objective is to maximize the long-term utility performance whereby an offloading decision is made based on the task queue state, the energy queue state as well as the channel qualities between MU and BSs. To break the curse of high dimensionality in state space, we first propose a double deep Q-network (DQN) based strategic computation offloading algorithm to learn the optimal policy without knowing a priori knowledge of network dynamics. Then motivated by the additive structure of the utility function, a Q-function decomposition technique is combined with the double DQN, which leads to novel learning algorithm for the solving of stochastic computation offloading. Numerical experiments show that our proposed learning algorithms achieve a significant improvement in computation offloading performance compared with the baseline policies.

연구 동기 및 목표

시간에 따라 변화하는 네트워크 조건이 존재하는 동적이고 확률적인 가상화된 초고밀도 슬라이싱 라디오 액세스 네트워크(RANs)에서의 계산 오프로딩 문제에 도전한다.
시간에 따라 변화하는 채널 품질과 에너지 가용성 하에서 작업 실행 지연, 에너지 소비, 작업 유실, MEC 서비스 비용을 균형 잡는 최적의 오프로딩 정책을 설계한다.
다중 에이전트, 다중 기지국 MEC 환경에서 흔히 발생하는 고차원 상태 공간의 차원의 저주를 극복한다.
채널 변동성이나 작업 도착 과정에 대한 사전 통계 지식이 없는 상태에서 온라인으로 오프로딩 정책을 학습할 수 있도록 한다.

제안 방법

모바일 사용자와 기지국 간의 채널 품질, 작업 큐 상태, 에너지 큐 상태를 상태로 정의하여 계산 오프로딩 문제를 마르코프 결정 과정(MDP)으로 공식화한다.
네트워크 동역학에 대한 사전 지식 없이도 최적의 오프로딩 정책을 종단 간(end-to-end)으로 학습하기 위해 더블 딥 Q넷(Double DQN) 기반 알고리즘(DARLING)을 제안한다.
유틸리티 함수의 덧셈적 구조를 활용하기 위해 Q함수 분해를 도입하여 학습 복잡도를 감소시키고 샘플 효율성을 향상시킨다.
더블 DQN와 Q함수 분해를 결합하여 새로운 알고리즘인 Deep-SARL을 개발하여 확률적 오프로딩 문제를 단순화하고 정책 학습을 향상시킨다.
중앙집중식 네트워크 컨트롤러(CNC)를 사용하여 실시간 시스템 상태 기반으로 오프로딩 결정을 내리며, 여러 기지국 간의 자원 오케스트레이션을 조율한다.
학습 안정성과 비정상적인 환경에서의 수렴성 향상을 위해 경험 리플레이와 타겟 네트워크를 사용하여 DRL 에이전트를 훈련시킨다.

실험 결과

연구 질문

RQ1시간에 따라 변화하는 채널 품질, 작업 도착, 에너지 가용성이 존재하는 동적이고 확률적인 MEC 환경에서 최적의 계산 오프로딩 정책을 어떻게 학습할 수 있는가?
RQ2딥 강화학습은 사전 통계 지식이 없는 다중 기지국, 다중 사용자 MEC 시스템에서 고차원 상태 공간을 효과적으로 다룰 수 있는가?
RQ3Q함수 분해는 확률적 계산 오프로딩에서 학습 효율성과 성능 향상에 어느 정도 기여하는가?
RQ4제안된 DRL 기반 알고리즘은 기존 기준 정책 대비 장기 유틸리티, 지연, 실패율 측면에서 어떻게 비교되는가?
RQ5에너지 가용성과 작업 도착률은 학습된 오프로딩 정책의 성능에 어떤 영향을 미치는가?

주요 결과

제안된 Deep-SARL 알고리즘이 장기 유틸리티 측면에서 DARLING 알고리즘과 세 가지 기준 오프로딩 방식을 모두 능가하며, 전체 시스템 성능 향상이 뚜렷하다.
수치적 결과는 DARLING과 Deep-SARL가 모두 기준 대비 평균 작업 실행 지연, 작업 유실, 큐잉 지연, 실패 보상을 감소시킴을 보여준다.
에너지 단위 도착률이 증가함에 따라 평균 작업 실행 지연과 MEC 서비스 요금은 처음에는 증가하다가 감소하며, 최적의 에너지 활용 임계값이 존재함을 시사한다.
작업 도착 확률이 증가할수록 큐잉 지연과 작업 유실 증가로 인해 유틸리티 성능이 저하되지만, 제안된 알고리즘이 기준 대비 이에 대한 영향을 더 효과적으로 완화한다.
Deep-SARL 알고리즘이 Q함수 분해를 통해 유틸리티 함수의 덧셈적 구조를 효과적으로 활용함으로써 DARLING보다 더 뛰어난 성능을 달성한다.
알고리즘들은 채널 통계나 작업 도착 분포에 대한 사전 지식 없이도 실시간으로 최적의 오프로딩 정책을 학습하는 데 성공했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.