[논문 리뷰] Training Diffusion Models with Reinforcement Learning
요약: 이 논문은 DDPO를 소개합니다. DDPO는 denoising diffusion policy optimization 방법으로, diffusion denoising을 다단계 MDP로 다루어 다운스트림 보상을 직접 최적화하고, reward-weighted likelihood 접근법을 능가하며, 텍스트-투-이미지 확산 모델에 대한 VLM 보상 신호를 가능하게 합니다.
Diffusion models are a class of flexible generative models trained with an approximation to the log-likelihood objective. However, most use cases of diffusion models are not concerned with likelihoods, but instead with downstream objectives such as human-perceived image quality or drug effectiveness. In this paper, we investigate reinforcement learning methods for directly optimizing diffusion models for such objectives. We describe how posing denoising as a multi-step decision-making problem enables a class of policy gradient algorithms, which we refer to as denoising diffusion policy optimization (DDPO), that are more effective than alternative reward-weighted likelihood approaches. Empirically, DDPO is able to adapt text-to-image diffusion models to objectives that are difficult to express via prompting, such as image compressibility, and those derived from human feedback, such as aesthetic quality. Finally, we show that DDPO can improve prompt-image alignment using feedback from a vision-language model without the need for additional data collection or human annotation. The project's website can be found at http://rl-diffusion.github.io .
연구 동기 및 목표
- 다운스트림 목표를 최적화하기 위해 확산 모델의 가능도 최적화 대신 문제를 동기부여하고 구성한다.
- 다단계 MDP로 프레임되는 denoising diffusion policy optimization (DDPO) 프레임워크를 제안한다.
- 정책 기울기 추정기가 다운스트림 보상 함수를 직접 최적화할 수 있음을 보여준다.
- 비전-언어 모델을 통해 프롬프트-이미지 정렬을 개선하기 위한 자동 보상을 제공하는 방법을 시연한다.
- 다양한 보상 함수와 프롬프트에 걸쳐 DDPO를 reward-weighted 방식과 비교 평가한다.
제안 방법
- diffusion 모델의 반복적 디노이즈 제거 프로세스를 상태 s_t = (c, t, x_t) 및 행동 a_t = x_{t-1}인 다단계 MDP로 매핑한다.
- DDPM 기반 보상을 최대화하기 위해 정책 기울기 추정기(스코어 함수 / REINFORCE 및 트러스트-리전 클리핑이 포함된 IS 변형)를 사용한다.
- DDPO 변형들(DDPO_SF 및 DDPO_IS)을 다운스트림 목표에 대한 reward-weighted regression(RWR) 접근법과 비교한다.
- 압축성, 비압축성, 심미적 품질, VLM을 통한 자동 프롬프트 정렬 등 다운스트림 보상 함수를 정의한다.
- VLM(예: LLaVA)을 활용해 프롬프트 설명에 대한 BERTScore 회귀와 같은 보상을 생성하고, 추가 라벨링 없이 자동 피드백을 가능하게 한다.
실험 결과
연구 질문
- RQ1DDPO가 다운스트림 목표 최적화를 위한 reward-weighted likelihood 방법(RWR)보다 확산 모델에 대해 더 나은 성능을 발휘할 수 있는가?
- RQ2이미지 압축성, 미적 품질, 프롬프트-이미지 정렬과 같은 다양한 보상 함수에서 DDPO 변형이 효과적인가?
- RQ3비전-언어 모델이 추가 인간 라벨링 없이도 신뢰할 수 있는 자동 보상을 제공해 프롬프트 정렬을 개선할 수 있는가?
- RQ4미세조정된 확산 모델이 학습 중 보지 못한 프롬프트로 일반화하는가?
- RQ5데이터 효율성과 안정성 측면에서 DDPO 변형 간의 트레이드오프는 무엇인가?
주요 결과
- DDPO는 압축성, 비압축성, 미적 품질 작업에서 RWR보다 뛰어난 성능을 보인다.
- 다단계 MDP 구성과 직접 정책 기울기 추정치의 이점이 DDPO 변형에 기여한다.
- 트러스트-리전 클리핑을 사용한 중요 샘플링(DDPO_IS)이 일부 설정에서 스코어 함수(DDPO_SF)보다 약간 더 우수하다.
- VLM 기반 보상은 자동 프롬프트 정렬을 가능하게 하고, 추가 라벨링 없이도 보지 못한 프롬프트에 대한 정렬을 개선한다.
- 미세조정된 프롬프트가 학습 분포 밖의 프롬프트(새로운 동물 및 비동물 객체, 프롬프트 정렬의 새로운 활동 포함)로 일반화한다.
- RL 미세조정은 미적으로도 예술 작품과 같은 스타일 변화와 같은 실질적 변화(예: 미학에 대한 명시적 최적화는 아님)를 초래한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.