Skip to main content
QUICK REVIEW

[논문 리뷰] Reinforcement Learning With LLMs Interaction For Distributed Diffusion Model Services

Hongyang Du, Ruichen Zhang|arXiv (Cornell University)|2023. 11. 18.
Recommender Systems and Techniques인용 수 13
한 줄 요약

본 논문은 QoE와 에너지 효율을 최적화하기 위해 LLM 기반 피드백이 포함된 RL과 GDM 기반 엣지 추론 방식으로 분산 확산 모델 AIGC를 위한 사용자 중심의 인터랙티브 AI 프레임워크를 제안한다.

ABSTRACT

Distributed Artificial Intelligence-Generated Content (AIGC) has attracted significant attention, but two key challenges remain: maximizing subjective Quality of Experience (QoE) and improving energy efficiency, which are particularly pronounced in widely adopted Generative Diffusion Model (GDM)-based image generation services. In this paper, we propose a novel user-centric Interactive AI (IAI) approach for service management, with a distributed GDM-based AIGC framework that emphasizes efficient and cooperative deployment. The proposed method restructures the GDM inference process by allowing users with semantically similar prompts to share parts of the denoising chain. Furthermore, to maximize the users' subjective QoE, we propose an IAI approach, i.e., Reinforcement Learning With Large Language Models Interaction (RLLI), which utilizes Large Language Model (LLM)-empowered generative agents to replicate user interaction, providing real-time and subjective QoE feedback aligned with diverse user personalities. Lastly, we present the GDM-based Deep Deterministic Policy Gradient (GDDPG) algorithm, adapted to the proposed RLLI framework, to allocate communication and computing resources effectively while accounting for subjective user traits and dynamic wireless conditions. Simulation results demonstrate that G-DDPG improves total QoE by 15% compared with the standard DDPG algorithm.

연구 동기 및 목표

  • 다양한 사용자 성향을 가진 AIGC 서비스에서 주관적 QoE의 극대화를 촉진한다.
  • 에너지 및 대기시간을 줄이기 위한 분산 GDM 기반 AIGC 프레임워크를 개발한다.
  • 실시간 QoE 피드백을 위해 LLM 에이전트를 활용하는 RLLI(Reinforcement Learning With LLM Interaction)를 도입한다.
  • 에너지 및 QoE 제약 하에서 디노이징 스텝과 전송 전력을 공동 최적화하는 자원 할당 문제를 수식화하고 해를 구한다.

제안 방법

  • 의미적으로 유사한 프롬프트가 확산 스텝을 공유하는 분산 다중 디바이스 디노이징 프로세스로 GDM 추론을 재구성한다.
  • 잠재 GDM을 통한 텍스트 프롬프트의 컨디셔닝을 사용하여 공유 디노이징 경로를 가능하게 한다(알고리즘 1).
  • 자원 배분을 안내하기 위해 LLM으로 생성된 QoE 피드백과 딥 RL을 결합한 RLLI를 제안한다.
  • 미적 선호를 반영하기 위해 Big Five 특성을 따르는 사용자 성격 u_k으로 QoE를 모델링한다.
  • 에너지 및 QoE 제약 하에서 서버/장치의 디노이징 스텝 t와 전송 전력 P를 공동 최적화하기 위해 G-DDPG(GDM 기반 DDPG)을 개발한다.
  • 에지 중심 배포 시나리오(Edge-to-Multiple Devices)를 제시하고 에너지-시간 트레이드오프를 분석한다.
Figure 1: The basic framework of interactive AI and four images generated with the prompt “A man sits in the street” . Part A is a man engrossed in a book against vibrant street art appeals to users with high openness . Part B is a formally dressed man on a clean street, resonating with users high i
Figure 1: The basic framework of interactive AI and four images generated with the prompt “A man sits in the street” . Part A is a man engrossed in a book against vibrant street art appeals to users with high openness . Part B is a formally dressed man on a clean street, resonating with users high i

실험 결과

연구 질문

  • RQ1C1: 자원 할당을 안내하기 위해 인간 인식형 주관적 QoE 피드백을 어떻게 효율적으로 얻을 수 있을까?
  • RQ2C2: 사용자 성격을 고려하면서 네트워크 기능을 어떻게 활용하여 에너지 효율적이고 저지연의 GDM 추론을 달성할 수 있을까?
  • RQ3시맨틱 프롬프트 유사성을 고려한 에너지, 대기시간 및 QoE 제약 하에서 분산 GDM 추론이 총 QoE를 어떻게 최대화할 수 있는가?

주요 결과

  • 시뮬레이션 결과 G-DDPG가 기존 DDPG에 비해 총 QoE를 15% 증가시킨다.
  • 의미적으로 유사한 프롬프트 간에 디노이징 스텝을 공유함으로써 분산 GDM 추론은 에너지와 시간을 감소시킨다.
  • LLM으로 강화된 생성 에이전트가 다양한 사용자 성격을 시뮬레이션하여 QoE 피드백을 제공하고 인간 피드백의 필요성을 줄인다.
  • 에지 기반 협력 추론은 최종 콘텐츠를 에지 디바이스에 보관하면서 에너지 효율적인 협업을 가능하게 하여 프라이버시를 향상시킨다.
  • RLLI 프레임워크는 DRL과 LLM 피드백을 통합하여 동적 무선 환경과 사용자 특성에 적응한다.
Figure 2: The working principle of the GDM and motivations behind distributed denoising inference process. Part A depicts the cooperative inference process across devices where, starting with Gaussian noise on Device 2 , it denoises using Prompt 2 before Devices 1 and $3$ continue in succession towa
Figure 2: The working principle of the GDM and motivations behind distributed denoising inference process. Part A depicts the cooperative inference process across devices where, starting with Gaussian noise on Device 2 , it denoises using Prompt 2 before Devices 1 and $3$ continue in succession towa

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.