[論文レビュー] Reinforcement Learning With LLMs Interaction For Distributed Diffusion Model Services
本論文は、分散拡散モデル AIGC のためのユーザー中心の Interactive AI フレームワークを提案し、LLM駆動のフィードバックを用いた強化学習と GDMベースのエッジ推論スキームを用いて QoE とエネルギー効率を最適化する。
Distributed Artificial Intelligence-Generated Content (AIGC) has attracted significant attention, but two key challenges remain: maximizing subjective Quality of Experience (QoE) and improving energy efficiency, which are particularly pronounced in widely adopted Generative Diffusion Model (GDM)-based image generation services. In this paper, we propose a novel user-centric Interactive AI (IAI) approach for service management, with a distributed GDM-based AIGC framework that emphasizes efficient and cooperative deployment. The proposed method restructures the GDM inference process by allowing users with semantically similar prompts to share parts of the denoising chain. Furthermore, to maximize the users' subjective QoE, we propose an IAI approach, i.e., Reinforcement Learning With Large Language Models Interaction (RLLI), which utilizes Large Language Model (LLM)-empowered generative agents to replicate user interaction, providing real-time and subjective QoE feedback aligned with diverse user personalities. Lastly, we present the GDM-based Deep Deterministic Policy Gradient (GDDPG) algorithm, adapted to the proposed RLLI framework, to allocate communication and computing resources effectively while accounting for subjective user traits and dynamic wireless conditions. Simulation results demonstrate that G-DDPG improves total QoE by 15% compared with the standard DDPG algorithm.
研究の動機と目的
- 多様な利用者性格を持つAIGCサービスにおける主観的QoEの最大化を動機づける。
- エネルギーと遅延を削減する分散GDMベースのAIGCフレームワークを開発する。
- リアルタイムQoEフィードバックのためにLLMエージェントを活用するReinforcement Learning With LLM Interaction(RLLI)を導入する。
- エネルギーとQoE制約の下でデノisingステップと送信電力を共同最適化するリソース割当問題を定式化し解く。
提案手法
- 意味的に類似したプロンプトが拡散ステップを共有する分散型マルチデバイスノイズ除去プロセスとしてGDM推論を再定式化する。
- 潜在GDMを介してテキストプロンプトによる条件付けを用い、共有ノイズ除去パスを可能にする(Algorithm 1)。
- LLM生成QoEフィードバックと深層RLを組み合わせてリソース割当を導くRLLIを提案する。
- 美的嗜好を反映するため、Big Five性格特性に従うユーザーの人格u_kでQoEをモデル化する。
- エネルギーとQoE制約の下でサーバー/デバイスのデノイズステップtと送信電力Pを共同最適化するG-DDPG(GDMベースのDDPG)を開発する。
- エッジ中心のデプロイメントシナリオ(Edge-to-Multiple Devices)を提供し、エネルギー-時間のトレードオフを分析する。

実験結果
リサーチクエスチョン
- RQ1C1: リソース割り当てを導くために、人的要素を考慮した主観QoEフィードバックを効率的にどのように取得するか?
- RQ2C2: ネットワーク機能を活用して、ユーザーの人格を考慮しつつエネルギー効率が高く低遅延のGDM推論をどのように達成するか?
- RQ3意味的プロンプト類似性を考慮したエネルギー・遅延・QoE制約の下で、分散GDM推論が総QoEを最大化する方法は何か?
主な発見
- シミュレーション結果は、従来のDDPGと比較してG-DDPGが総QoEを15%向上させることを示す。
- 意味的に類似したプロンプト間でデノイズステップを共有することにより、分散GDM推論はエネルギーと時間を削減する。
- LLM搭載の生成エージェントが多様なユーザー人格を模擬してQoEフィードバックを提供し、人間のフィードバックの必要性を低減する。
- エッジベースの協調推論は、最終コンテンツをエッジデバイス上に保持しつつエネルギー効率の高い協力を可能にすることでプライバシーを向上させる。
- RLLIフレームワークは、動的な無線環境とユーザー特性に適応するためにDRLとLLMフィードバックを統合する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。