QUICK REVIEW

[論文レビュー] Large Artificial Intelligence Model Guided Deep Reinforcement Learning for Resource Allocation in Non Terrestrial Networks

Abdikarim Mohamed Ibrahim, Rosdiadee Nordin|arXiv (Cornell University)|Jan 13, 2026

Software-Defined Networks and 5G被引用数 0

ひとこと要約

この論文は、非地上ネットワーク（ NTN ）の下りリソース割り当てを最適化するために大規模言語モデル（ LLM ）に導かれた深層強化学習エージェントを導入し、名目条件および極端な天候下でスループット、フェアネスを向上させ、 outages を減少させる。

ABSTRACT

Large AI Model (LAM) have been proposed to applications of Non-Terrestrial Networks (NTN), that offer better performance with its great generalization and reduced task specific trainings. In this paper, we propose a Deep Reinforcement Learning (DRL) agent that is guided by a Large Language Model (LLM). The LLM operates as a high level coordinator that generates textual guidance that shape the reward of the DRL agent during training. The results show that the LAM-DRL outperforms the traditional DRL by 40% in nominal weather scenarios and 64% in extreme weather scenarios compared to heuristics in terms of throughput, fairness, and outage probability.

研究の動機と目的

高い mobility および異種ユーザーを含む動的な NTN シナリオで効率的かつ堅牢なリソース割り当てを動機づける。
サンプル非効率性と解釈性の問題を克服するため、LLM が生成する高レベル戦略に導かれた DRL フレームワークを開発する。
LLM 提供戦略が報酬を形作ることで学習を誘導し、NTN リソース割り当てを MDP として定式化する。
名目条件と極端な天候条件の下で、従来の DRL およびヒューリスティック基準とフレームワークを比較評価する。

提案手法

連携するユーザー毎の電力と帯域幅分数の連続アクション空間を持つ NTN の下りリソース割り当てを MDP として定式化する。
DRL 報酬に LLM 生成戦略ラベルを埋め込み、学習を誘導し解釈性を向上させる。
アクターとクリティックに戦略条件付きアテンションを実装し、幾何とチャネル特徴にフォーカスする。
戦略条件付きアテンションとエピソディックな LLM 指針を用いた TD3（オフポリシー・アクタークリティック）を使用する。
名目条件と極端な天候シナリオの下で、ブラックボックス DRL およびヒューリスティック/資源割り当て方式と比較する。

実験結果

リサーチクエスチョン

RQ1LLM による戦略形状付けは、標準 DRL およびヒューリスティックと比較して NTN リソース割り当ての DRL パフォーマンスを改善するか？
RQ2LLM 提供の戦略は、天候条件の変化に応じてスループット、フェアネス、 outages にどのように影響するか？
RQ3学習中、エージェントは NTN リソース割り当てポリシーの学習でどの入力特徴に最も注意を払うか？
RQ4アテンションウェイトとエピソードを通じた戦略の使用を通じて、フレームワークは解釈可能なポリシーを生み出すか？

主な発見

LLM–DRL は名目天候でブラックボックス DRL より総合スループ rates を約40%高く、極端天候では約64%高くなる。
LLM–DRL はベースラインと比較してフェアネス（ジャイン指標約0.76）と低 outage 確率を達成。
エッジユーザーは高いパス損失と固定の per-user カプにより outages のリスクを依然抱えるが、LLM–DRL はベースラインと比較して outages を減らすリソース再配分を実現。
学習過程で戦略の使用が進化し、フェアネス重視の戦略（B）が優勢になり、総和スループレートの向上と相関する。
アテンション分析では、緯度や距離といった空間特徴の重みが高く、NTN の幾何的重要性と一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。