Skip to main content
QUICK REVIEW

[論文レビュー] Large Artificial Intelligence Model Guided Deep Reinforcement Learning for Resource Allocation in Non Terrestrial Networks

Abdikarim Mohamed Ibrahim, Rosdiadee Nordin|arXiv (Cornell University)|Jan 13, 2026
Software-Defined Networks and 5G被引用数 0
ひとこと要約

この論文は、非地上ネットワーク( NTN )の下りリソース割り当てを最適化するために大規模言語モデル( LLM )に導かれた深層強化学習エージェントを導入し、名目条件および極端な天候下でスループット、フェアネスを向上させ、 outages を減少させる。

ABSTRACT

Large AI Model (LAM) have been proposed to applications of Non-Terrestrial Networks (NTN), that offer better performance with its great generalization and reduced task specific trainings. In this paper, we propose a Deep Reinforcement Learning (DRL) agent that is guided by a Large Language Model (LLM). The LLM operates as a high level coordinator that generates textual guidance that shape the reward of the DRL agent during training. The results show that the LAM-DRL outperforms the traditional DRL by 40% in nominal weather scenarios and 64% in extreme weather scenarios compared to heuristics in terms of throughput, fairness, and outage probability.

研究の動機と目的

  • 高い mobility および異種ユーザーを含む動的な NTN シナリオで効率的かつ堅牢なリソース割り当てを動機づける。
  • サンプル非効率性と解釈性の問題を克服するため、LLM が生成する高レベル戦略に導かれた DRL フレームワークを開発する。
  • LLM 提供戦略が報酬を形作ることで学習を誘導し、NTN リソース割り当てを MDP として定式化する。
  • 名目条件と極端な天候条件の下で、従来の DRL およびヒューリスティック基準とフレームワークを比較評価する。

提案手法

  • 連携するユーザー毎の電力と帯域幅分数の連続アクション空間を持つ NTN の下りリソース割り当てを MDP として定式化する。
  • DRL 報酬に LLM 生成戦略ラベルを埋め込み、学習を誘導し解釈性を向上させる。
  • アクターとクリティックに戦略条件付きアテンションを実装し、幾何とチャネル特徴にフォーカスする。
  • 戦略条件付きアテンションとエピソディックな LLM 指針を用いた TD3(オフポリシー・アクタークリティック)を使用する。
  • 名目条件と極端な天候シナリオの下で、ブラックボックス DRL およびヒューリスティック/資源割り当て方式と比較する。

実験結果

リサーチクエスチョン

  • RQ1LLM による戦略形状付けは、標準 DRL およびヒューリスティックと比較して NTN リソース割り当ての DRL パフォーマンスを改善するか?
  • RQ2LLM 提供の戦略は、天候条件の変化に応じてスループット、フェアネス、 outages にどのように影響するか?
  • RQ3学習中、エージェントは NTN リソース割り当てポリシーの学習でどの入力特徴に最も注意を払うか?
  • RQ4アテンションウェイトとエピソードを通じた戦略の使用を通じて、フレームワークは解釈可能なポリシーを生み出すか?

主な発見

  • LLM–DRL は名目天候でブラックボックス DRL より総合スループ rates を約40%高く、極端天候では約64%高くなる。
  • LLM–DRL はベースラインと比較してフェアネス(ジャイン指標約0.76)と低 outage 確率を達成。
  • エッジユーザーは高いパス損失と固定の per-user カプにより outages のリスクを依然抱えるが、LLM–DRL はベースラインと比較して outages を減らすリソース再配分を実現。
  • 学習過程で戦略の使用が進化し、フェアネス重視の戦略(B)が優勢になり、総和スループレートの向上と相関する。
  • アテンション分析では、緯度や距離といった空間特徴の重みが高く、NTN の幾何的重要性と一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。