QUICK REVIEW

[논문 리뷰] Learning-Based Computation Offloading for IoT Devices with Energy Harvesting

Minghui Min, Dongjin Xu|arXiv (Cornell University)|2017. 12. 23.

Energy Harvesting in Wireless Networks참고 문헌 10인용 수 26

한 줄 요약

이 논문은 동적 다중-MEC 환경에서 에너지 수확 기반 IoT 장치를 위한 강화학습 기반의 계산 오프로딩 프레임워크를 제안한다. 핫부팅 Q-학습과 빠른 딥 Q-네트워크(DQN) 기법을 사용하여, 배터리 수준, 예측된 에너지, 이전 채널 상태를 바탕으로 시스템이 자율적으로 최적의 MEC 장치와 오프로딩 속도를 선택한다. 이로 인해 기준 Q-학습 대비 최대 2배 높은 유틸리티와 53% 낮은 작업 드롭 비율을 달성하며, 수렴 속도 또한 빠르다.

ABSTRACT

Internet of Things (IoT) devices can apply mobile-edge computing (MEC) and energy harvesting (EH) to provide the satisfactory quality of experiences for computation intensive applications and prolong the battery lifetime. In this article, we investigate the computation offloading for IoT devices with energy harvesting in wireless networks with multiple MEC devices such as base stations and access points, each with different computation resource and radio communication capability. We propose a reinforcement learning based computation offloading framework for an IoT device to choose the MEC device and determine the offloading rate according to the current battery level, the previous radio bandwidth to each MEC device and the predicted amount of the harvested energy. A "hotbooting" Q-learning based computation offloading scheme is proposed for an IoT device to achieve the optimal offloading performance without being aware of the MEC model, the energy consumption and computation latency model. We also propose a fast deep Q-network (DQN) based offloading scheme, which combines the deep learning and hotbooting techniques to accelerate the learning speed of Q-learning. We show that the proposed schemes can achieve the optimal offloading policy after sufficiently long learning time and provide their performance bounds under two typical MEC scenarios. Simulations are performed for IoT devices that use wireless power transfer to capture the ambient radio-frequency signals to charge the IoT batteries. Simulation results show that the fast DQN-based offloading scheme reduces the energy consumption, decreases the computation delay and the task drop ratio, and increases the utility of the IoT device in dynamic MEC, compared with the benchmark Q-learning based offloading.

연구 동기 및 목표

다중 MEC 장치와 시간에 따라 변하는 에너지 가용성이 있는 IoT 네트워크에서 동적 계산 오프로딩 문제를 해결하기 위해.
MEC 모델, 에너지 소비, 지연 특성에 대한 사전 지식 없이도 IoT 장치가 오프로딩 결정을 최적화할 수 있도록 하기 위해.
에너지 수확 기반 IoT 시스템에서 에너지 소비, 계산 지연, 작업 드롭 비율을 줄이기 위해.
이동 학습과 딥 신경망을 활용하여 오프로딩 정책 선택의 학습 수렴 속도를 가속화하기 위해.
이론적 성능 한계를 설정하고, RF 기반 무선 전력 전송을 통한 시뮬레이션을 통해 프레임워크를 검증하기 위해.

제안 방법

상태로 현재 배터리 수준, 이전 라디오 대역폭, 예측된 수확된 에너지를 포함하는 마르코프 결정 과정(MDP)으로 오프로딩 결정을 수식화한다.
기존 지식이나 사전 학습된 정책에서 유도된 Q-값을 초기화하여 수렴 속도를 가속화하는 핫부팅 Q-학습 기법을 제안한다.
상태 공간을 압축하고 학습 속도를 향상시키기 위해 컨볼루션 신경망(CNN)을 사용하는 빠른 DQN 기반 오프로딩 기법을 도입한다.
정책 최적화를 이끄는 데 사용하기 위해 계산 지연, 에너지 소비, 작업 성공률을 종합한 유틸리티 지표로 보상 함수를 정의한다.
IoT 장치가 시간에 따라 MEC 네트워크와 상호작용하면서 최적의 상태-행동 매핑을 학습하기 위해 반복 게임 프레임워크를 활용한다.
전송 전력이 핵심 시스템 파rameter인 RF 신호를 통한 무선 전력 전송(WPT)을 사용하여 에너지 수확을 모델링한다.

실험 결과

연구 질문

RQ1에너지 수확 기반 IoT 장치가 다중-MEC 및 시간에 따라 변하는 환경에서 최적의 MEC 장치와 오프로딩 속도를 어떻게 동적으로 선택할 수 있는가?
RQ2IoT 장치가 MEC 시스템 모델에 대한 지식이 없을 경우, 학습 속도와 모델 복잡도가 오프로딩 성능에 어떤 영향을 미치는가?
RQ3핫부팅 Q-학습과 빠른 DQN이라는 서로 다른 강화학습 기법 간에 수렴 속도, 에너지 효율성, 작업 신뢰성 측면에서 어떤 차이가 있는가?
RQ4완전히 오프로딩 및 로컬 처리 조건 하에서 제안된 RL 기반 오프로딩 기법의 이론적 성능 한계는 무엇인가?
RQ5작업 크기 및 RF 전송 전력과 같은 시스템 파rameter가 에너지 소비, 지연, 작업 드롭 비율에 어떤 영향을 미치는가?

주요 결과

빠른 DQN 기반 오프로딩 기법은 약 1,000개의 타임슬롯 내에서 수렴하며, 핫부팅 Q-학습 및 표준 Q-학습보다 훨씬 빠르다.
타임슬롯 1,000에서 빠른 DQN 기반 기법은 핫부팅 Q-학습 기법 대비 2배 높은 유틸리티를 달성한다.
120비트 작업에 대해 빠른 DQN 기반 기법은 에너지 소비를 23% 감소시키고 계산 지연을 4% 감소시킨다.
다양한 조건 하에서 빠른 DQN 기반 기법의 작업 드롭 비율은 핫부팅 Q-학습 대비 53% 낮고, 기준 Q-학습 대비 68% 낮다.
핫부팅 Q-학습 기법에서 RF 전송 전력을 6W에서 10W로 증가시키면 작업 드롭 비율이 82% 감소한다.
빠른 DQN 기반 기법에서 계산 작업 크기를 100비트에서 140비트로 증가시키면 에너지 소비, 지연, 작업 드롭 비율이 각각 40%, 46%, 400% 증가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.