[论文解读] Diffusion-based Reinforcement Learning for Edge-enabled AI-Generated Content Services
本文提出 AGOD,一种基于扩散模型的离散决策优化器,作为 D2SAC 集成到 DRL 中,用于在元宇宙的边缘计算 AIGC 服务中优化 ASP 选择。实验证明 D2SAC 超越了若干 DRL 基线。
As Metaverse emerges as the next-generation Internet paradigm, the ability to efficiently generate content is paramount. AIGenerated Content (AIGC) emerges as a key solution, yet the resource intensive nature of large Generative AI (GAI) models presents challenges. To address this issue, we introduce an AIGC-as-a-Service (AaaS) architecture, which deploys AIGC models in wireless edge networks to ensure broad AIGC services accessibility for Metaverse users. Nonetheless, an important aspect of providing personalized user experiences requires carefully selecting AIGC Service Providers (ASPs) capable of effectively executing user tasks, which is complicated by environmental uncertainty and variability. Addressing this gap in current research, we introduce the AI-Generated Optimal Decision (AGOD) algorithm, a diffusion model-based approach for generating the optimal ASP selection decisions. Integrating AGOD with Deep Reinforcement Learning (DRL), we develop the Deep Diffusion Soft Actor-Critic (D2SAC) algorithm, enhancing the efficiency and effectiveness of ASP selection. Our comprehensive experiments demonstrate that D2SAC outperforms seven leading DRL algorithms. Furthermore, the proposed AGOD algorithm has the potential for extension to various optimization problems in wireless networks, positioning it as a promising approach for future research on AIGC-driven services. The implementation of our proposed method is available at: https://github.com/Lizonghang/AGOD.
研究动机与目标
- 引入 AIGC-as-a-Service (AaaS) 架构,在无线边缘服务器部署 AIGC 模型,以实现无处不在的 AIGC 服务。
- 开发 AGOD,一种基于扩散模型的优化器,在环境不确定性下生成最优离散决策。
- 将 AGOD 与 DRL 集成,构建用于 ASP(AIGC Service Provider)选择的 Deep Diffusion Soft Actor-Critic (D2SAC) 算法。
- 证明 D2SAC 在多项 DRL 基线上具备更好性能,并讨论 AGOD 向其他无线网络优化问题扩展的潜力。
提出的方法
- 将 ASP 选择表述为资源受限、在线、离散优化问题,并具有人类感知的效用。
- 开发 AGOD 算法,它利用扩散过程在给定环境状态的条件下生成离散决策分布。
- 描述前向概率加噪声过程和反向去噪声过程,以获得最优决策分布。
- 将 AGOD 嵌入 DRL SAC 框架,产生 D2SAC 算法。
- 使用基于内容质量评估(如 BRISQUE)的具有人类感知的效用函数,以及扩散模型辅助的决策制定。
- 提供实现与评估,将 D2SAC 与七个 DRL 基线在 ASP 选择与控制任务上进行比较。

实验结果
研究问题
- RQ1扩散模型如何在资源约束与不确定性下,用于生成 ASP 选择的最优离散决策?
- RQ2基于扩散的 DRL 增强(D2SAC)是否能优于标准 DRL 算法,在边缘 AIGC 服务提供方面?
- RQ3具有人类感知内容质量度量对 ASP 选择与用户效用的影响是什么?
- RQ4所提方法对无线网络中其他优化问题的泛化能力如何?
主要发现
- D2SAC 在 ASP 选择和标准控制任务上超越了七种代表性的 DRL 算法。
- AGOD 通过在环境状态条件下反向扩散过程来生成离散决策分布。
- AaaS 架构使在边缘部署 AIGC 模型成为可能,以实现以人为中心的优化的无处不在的服务。
- 具有人类感知的效用函数将 AIGC 模型输出质量与资源感知的决策联系起来。
- 该方法可扩展到超出 ASP 选择的更广泛无线网络优化问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。