QUICK REVIEW

[論文レビュー] Mobile Edge Computation Offloading Using Game Theory and Reinforcement Learning

Shermila Ranadheera, Setareh Maghsudi|arXiv (Cornell University)|Nov 19, 2017

IoT and Edge/Fog Computing被引用数 39

ひとこと要約

本稿は、モバイルエッジコンピューティング（MEC）におけるエネルギ効率の良い計算オフロードを実現するため、ゲーム理論および強化学習に基づくフレームワークを提案する。エッジサーバー選択をマイノリティゲーム（MG）としてモデル化することで、分散的かつ自律的な意思決定を可能にする。指数学習と適応戦略手法により、社会的・個人的福祉が最適化され、リソースの無駄を削減し、ユーザーのQoEを向上させる。その結果、サーバー選択においてより大きなマイノリティを形成する。

ABSTRACT

Due to the ever-increasing popularity of resource-hungry and delay-constrained mobile applications, the computation and storage capabilities of remote cloud has partially migrated towards the mobile edge, giving rise to the concept known as Mobile Edge Computing (MEC). While MEC servers enjoy the close proximity to the end-users to provide services at reduced latency and lower energy costs, they suffer from limitations in computational and radio resources, which calls for fair efficient resource management in the MEC servers. The problem is however challenging due to the ultra-high density, distributed nature, and intrinsic randomness of next generation wireless networks. In this article, we focus on the application of game theory and reinforcement learning for efficient distributed resource management in MEC, in particular, for computation offloading. We briefly review the cutting-edge research and discuss future challenges. Furthermore, we develop a game-theoretical model for energy-efficient distributed edge server activation and study several learning techniques. Numerical results are provided to illustrate the performance of these distributed learning techniques. Also, open research issues in the context of resource management in MEC servers are discussed.

研究の動機と目的

エネルギー制約があり、超密度なMECネットワークにおいて、計算リソースと無線リソースが限られた環境での、効率的で分散型のリソース管理の課題に対処すること。
モバイルエッジサーバーの活性化とタスクのオフロードを非協力ゲームとしてモデル化することで、グローバルな情報がなくても自律的かつ分散型の意思決定を可能にすること。
社会的福祉、個々のサーバーの利得、ユーザーのQoE（品質の体験）を最適化するための複数の強化学習手法を評価・比較すること。
非均質なエッジサーバーおよびランダムなタスク到着やチャネル変動といった動的ネットワーク状態を考慮したモデルの拡張。
プレイヤー（サーバー）が協調し、より大きなマイノリティを形成できる有効な学習ルールを同定すること。これにより、リソースの無駄と遅延を最小限に抑える。

提案手法

エッジサーバーの活性化とオフロード問題をマイノリティゲーム（MG）として定式化。プレイヤー（サーバー）は2つの行動（例：活性化する／しない）を選択し、個々の報酬を最大化することを目的とする。
指数学習、Q学習、適応戦略、勝てば継続・負けたら変更、Roth-Erev学習、学習オートマトン、および初期のMG手法を含む複数の強化学習手法を適用。各手法は行動確率の更新ルールが異なる。
指数学習では、更新式 $ p_a(t+1) = p_a(t) + \gamma U_{i,a}(1-p_a(t)) - \delta(1-U_{i,a})p_a(t) $ を用い、報酬と行動の結果に基づいて確率を調整する。
通信や他のプレイヤーの行動に関する知識がなくても、過去の報酬と結果に基づいて行動選択を適応的に変更する確率的学習メカニズムを採用する。
集約利得の逆数であるボラティリティに基づくパフォーマンス指標を導入。ボラティリティが低いほど、システムの連携性が高く、社会的福祉が向上していることを示す。
ユーザー体験は、すべてのオフロードタスクがデッドライン $ T $ 内に完了する確率 $ \Pr[\tau \leq T] $ を用いて評価する。

実験結果

リサーチクエスチョン

RQ1分散型MECオフロードシステムをマイノリティゲームとしてモデル化した場合、どの強化学習手法が最も高い社会的福祉を達成するか？
RQ2グローバル情報が欠如する状況下で、異なる学習ルールは個々のサーバー利得とシステム連携にどのように影響するか？
RQ3学習ベースの戦略は、MECネットワークにおけるタスク完了遅延を低減することで、ユーザーのQoEをどの程度向上できるか？
RQ4メモリサイズ $ s $ およびシステムパラメータ $ \alpha = 2^s / M $ は、MGフレームワーク内での学習アルゴリズムのパフォーマンスにどのように影響するか？
RQ5分散型MECリソース割り当てにおいて、学習の複雑さ、収束速度、システム効率の間で生じる主な設計的トレードオフは何か？

主な発見

指数学習はボラティリティが最小（ほぼゼロ）を記録し、すべての学習手法の中で最高の社会的福祉と最良のシステム連携を達成した。
適応戦略、勝てば継続・負けたら変更、Q学習手法は、初期の誘導的学習手法に比べ、集約利得とユーザーQoEの面で顕著に優れていた。
すべての高度な学習手法は、サーバーがより大きなマイノリティを形成することでリソースの無駄を削減し、計算リソースの利用効率を向上させた。
指数学習および適応戦略では、他のプレイヤーの行動に関する事前知識がなくても、サーバー1つあたりの平均利得が近似的に最適水準に近づいた。
指数学習および適応戦略を用いることで、タスクが期限内に完了する確率 $ \Pr[\tau \leq T] $ が著しく向上し、ユーザー体験が向上した。
数値結果から、学習ベースのアプローチが、集中制御がなくても動的かつランダムなネットワーク状態下でも効率的平衡に到達できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。