QUICK REVIEW

[논문 리뷰] RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback

Yufei Wang, Zhanyi Sun|arXiv (Cornell University)|2024. 02. 06.

Robotics and Automated Systems인용 수 6

한 줄 요약

RL-VLM-F는 에이전트 관찰을 텍스트 작업 설명과 비교하기 위해 비전-언어 기초 모델에 질의함으로써 RL의 보상 함수를 자동으로 생성하고, 인간이 설계한 보상 없이 자율 학습을 가능하게 하며 다양한 조작 작업에서 강한 성능을 달성한다.

ABSTRACT

Reward engineering has long been a challenge in Reinforcement Learning (RL) research, as it often requires extensive human effort and iterative processes of trial-and-error to design effective reward functions. In this paper, we propose RL-VLM-F, a method that automatically generates reward functions for agents to learn new tasks, using only a text description of the task goal and the agent's visual observations, by leveraging feedbacks from vision language foundation models (VLMs). The key to our approach is to query these models to give preferences over pairs of the agent's image observations based on the text description of the task goal, and then learn a reward function from the preference labels, rather than directly prompting these models to output a raw reward score, which can be noisy and inconsistent. We demonstrate that RL-VLM-F successfully produces effective rewards and policies across various domains - including classic control, as well as manipulation of rigid, articulated, and deformable objects - without the need for human supervision, outperforming prior methods that use large pretrained models for reward generation under the same assumptions. Videos can be found on our project website: https://rlvlmf2024.github.io/

연구 동기 및 목표

텍스트 작업 설명과 시각적 관찰을 활용하여 수작업 보상 설계를 제거한다.
비전-언어 기초 모델(VLMs)이 제공하는 선호도를 통해 보상 함수 학습을 자동화한다.
전통적 제어, 강체/관절형, 변형 가능한 물체 조작 작업 전반에 걸친 적용 가능성을 입증한다.
보상 학습과 정책 성능에 대한 VLM 기반 선호도의 영향을 분석한다.

제안 방법

작업 설명을 기반으로 이미지 페어 선호도를 얻기 위해 두 단계의 VLM 프롬프트 프로세스를 사용한다.
Bradley-Terry 기반 우도(Eq. 1)를 통해 VLM이 제공한 선호도에서 보상 함수 rψ를 학습한다.
표준 선호 손실(Eq. 2)을 최소화하여 보상 함수를 최적화하고 오프 폴리시 RL로 정책을 업데이트한다.
기본 RL 알고리즘으로 SAC를 사용하고 보상 함수가 업데이트될 때 리플레이 버퍼를 재레이블한다.
반복적으로 롤아웃을 수집하고 이미지 쌍을 샘플링하며 VLM에 선호도를 질의하고 정책과 보상 모델을 함께 업데이트한다(Algorithm 1).

실험 결과

연구 질문

RQ1비전-언어 기초 모델이 원시 이미지 관찰로부터 작업 보상을 학습하기 위한 신뢰할 수 있는 선호 라벨을 제공할 수 있는가?
RQ2다양한 로봇 작업에서 VLM 기반 보상 학습이 원시 VLM 점수나 다른 기준선과 어떻게 비교되는가?
RQ3작업 설명으로부터의 자동 보상 학습이 전통적 제어, 강체/관절형, 변형 가능한 물체 조작에서 얼마나 일반화되는가?
RQ4VLM의 두 단계 프롬프팅 전략과 단일 단계 접근 방식의 영향은 무엇인가?

주요 결과

RL-VLM-F는 VLM 점수, CLIP/BLIP-2 유사도, RoboCLIP 스타일 보상에 의존하는 베이스라인을 7개 작업에서 능가한다.
RL-VLM-F는 7개 중 6개 작업에서 GT(ground-truth) 선호도 성능과 같거나 이를 능가하여 강력한 자동 보상 학습을 보여준다.
두 단계 VLM 프롬프팅 전략이 대부분의 작업에서 단일 프롬프트보다 더 나은 성능을 낸다.
VLM이 생성한 선호 라벨은 일반적으로 정확도가 높고, 이미지 쌍 간의 시각적 진행 차이가 커질수록 정확도가 증가한다.
학습된 보상은 작업 진행과 정렬되며 보상 신호의 잡음과 국소 최솟값에도 불구하고 효과적인 정책을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.