Skip to main content
QUICK REVIEW

[논문 리뷰] Reinforcement Learning for Generative AI: A Survey

Yuanjiang Cao, Quan Z. Sheng|arXiv (Cornell University)|2023. 08. 28.
Machine Learning and Data Classification인용 수 10
한 줄 요약

강화 학습이 다중 모달리티에 걸친 생성형 AI를 향상시키는 방법에 대한 포괄적 개요로, 통합 분류학과 도전 과제 및 추세 논의 포함, LLMs 및 확산 모델을 포함.

ABSTRACT

Deep Generative AI has been a long-standing essential topic in the machine learning community, which can impact a number of application areas like text generation and computer vision. The major paradigm to train a generative model is maximum likelihood estimation, which pushes the learner to capture and approximate the target data distribution by decreasing the divergence between the model distribution and the target distribution. This formulation successfully establishes the objective of generative tasks, while it is incapable of satisfying all the requirements that a user might expect from a generative model. Reinforcement learning, serving as a competitive option to inject new training signals by creating new objectives that exploit novel signals, has demonstrated its power and flexibility to incorporate human inductive bias from multiple angles, such as adversarial learning, hand-designed rules and learned reward model to build a performant model. Thereby, reinforcement learning has become a trending research field and has stretched the limits of generative AI in both model design and application. It is reasonable to summarize and conclude advances in recent years with a comprehensive review. Although there are surveys in different application areas recently, this survey aims to shed light on a high-level review that spans a range of application areas. We provide a rigorous taxonomy in this area and make sufficient coverage on various models and applications. Notably, we also surveyed the fast-developing large language model area. We conclude this survey by showing the potential directions that might tackle the limit of current models and expand the frontiers for generative AI.

연구 동기 및 목표

  • 강화 학습이 다양한 도메인에 걸쳐 생성형 AI를 향상시킬 수 있는 방법에 대한 고수준의 포괄적 분석을 제공한다.
  • 생성 모델링에서 RL 방법을 정리하기 위한 통일 분류학을 도입한다.
  • 실용적 응용, 도전 과제 및 기회(비분화 설정 및 보상 설계 포함)를 논의한다.
  • RL이 통합된 생성 시스템의 향후 방향 및 가능 경로를 강조한다.

제안 방법

  • 생성형 AI를 위한 RL에 관한 문헌을 정리하기 위한 설문 및 분류학 개발.
  • 생성 과제에서의 모델 프리 및 모델 기반 RL의 이론적 및 실용적 논의.
  • 비분화 구성요소 및 비 ML 트레이닝 신호를 다루는 RL의 분석.
  • 판별자, 수작업 설계 규칙, 발산, 데이터 기반 신호를 포함한 보상 설계 접근법의 검토.
  • 현재 추세의 일부로 대형 언어 모델 및 확산 모델과의 통합에 대한 논의.

실험 결과

연구 질문

  • RQ1생성형 AI에서 최대 우도 추정의 한계를 RL이 어떻게 해결할 수 있는가?
  • RQ2RL 방법과 생성 모델의 교차를 가장 잘 포착하는 분류 체계적 프레임워크는 무엇인가?
  • RQ3생성 과제에서 RL의 주요 도전과 잠재적 해결책은 무엇인가(예: 비분화성, 희소 보상, 장기 크레딧)?
  • RQ4LLMs 및 기초 모델을 포함한 RL-활용 생성 시스템의 새로운 방향 및 실용적 경로는 무엇인가?

주요 결과

  • 보상 함수에 의해 유연한 목표를 제공함으로써 훈련 데이터 분포를 넘어서는 다양한 특성과의 정렬이 가능하다.
  • 연속적 의사결정을 통해 비분화 생성 파이프라인에서 역전파가 가능하므로 RL이 학습을 가능하게 한다.
  • 가치 기반, 정책 기반, 배우-비평가, 모델 기반 등 다양한 RL 접근법이 생성 설정에 적용될 수 있으며, DQN, PPO, SAC, A3C 같은 방법들이 논의된다.
  • 생성 유도에서 판별자 기반 및 수작업 설계 보상 신호가 일반적으로 사용되며, 적대적 및 대조적 패러다임을 포함한다.
  • 대규모 모델 및 확산 프로세스와의 RL 통합이 중요한 신흥 추세로 부상하고 있음을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.