[论文解读] Large Artificial Intelligence Model Guided Deep Reinforcement Learning for Resource Allocation in Non Terrestrial Networks
本文提出一个由大语言模型引导的深度强化学习智能体,以优化非地面网络(NTN)下行资源分配,在名义天气和极端天气条件下提升吞吐量与公平性并降低 outages。
Large AI Model (LAM) have been proposed to applications of Non-Terrestrial Networks (NTN), that offer better performance with its great generalization and reduced task specific trainings. In this paper, we propose a Deep Reinforcement Learning (DRL) agent that is guided by a Large Language Model (LLM). The LLM operates as a high level coordinator that generates textual guidance that shape the reward of the DRL agent during training. The results show that the LAM-DRL outperforms the traditional DRL by 40% in nominal weather scenarios and 64% in extreme weather scenarios compared to heuristics in terms of throughput, fairness, and outage probability.
研究动机与目标
- 在高移动性与异质用户的动态 NTN 场景中,推动高效且鲁棒的资源分配。
- 开发一个其学习受 LLM 生成的高层策略引导的 DRL 框架,以克服样本效率低和可解释性问题。
- 将 NTN 资源分配形式化为一个 MDP,其中由 LLM 提供的策略塑造奖励以引导学习。
- 在名义天气和极端天气条件下,将该框架与传统 DRL 与启发式基线进行比较评估。
提出的方法
- 将下行 NTN 资源分配形式化为带连续动作空间的 MDP,针对每用户的功率和带宽分数进行优化。
- 将 LLM 生成的策略标签嵌入 DRL 奖励中,以引导学习并提升可解释性。
- 在 actor 和 critic 中实现策略条件化注意力,以聚焦几何与信道特征。
- 使用 TD3(离策略的 Actor-Critic)配合策略条件化注意力与情节性 LLM 指导。
- 在名义天气与极端天气场景下,与黑盒 DRL 与启发式/资源分配方案进行对比。
实验结果
研究问题
- RQ1LLM 指导的策略塑形是否能提高 NTN 资源分配的 DRL 性能,相较于标准 DRL 与启发式方法?
- RQ2LLM 提供的策略在不同天气条件下对吞吐量、公平性和 outage 有何影响?
- RQ3在学习 NTN 资源分配策略时,代理最关注的输入特征是什么?
- RQ4该框架是否通过注意力权重与情节化策略使用在不同情节中得到可解释的策略?
主要发现
- 在名义天气下,LLM–DRL 的总吞吐量比黑盒 DRL 高约 40%,在极端天气下高约 64%。
- LLM–DRL 相较基线具有更高的公平性(Jain 指数约为 0.76)和更低的 outage 概率。
- 边缘用户仍因高路径损耗和每用户固定上限而出现 outages,但与基线相比,LLM–DRL 通过重新分配资源降低了 outages。
- 策略使用在训练过程中演变,关注公平性的策略(B)成为主导并与更高的总吞吐量相关。
- 注意力分析显示空间特征(如纬度和距离)获得更高权重,与 NTN 几何重要性相吻合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。