[논문 리뷰] Vision-Language Models as Success Detectors
논문은 SuccessVQA를 제안한다. 이는 Flamingo(비전-언어 모델)를 미세조정하여 다양한 도메인에서 성공 행동을 감지하는 프레임워크로, 성공 감지を 시각적 질문 응답(VQA) 태스크로 재구성하고 언어 및 시각 변형에 대한 제로샷 일반화를 가능하게 한다.
Detecting successful behaviour is crucial for training intelligent agents. As such, generalisable reward models are a prerequisite for agents that can learn to generalise their behaviour. In this work we focus on developing robust success detectors that leverage large, pretrained vision-language models (Flamingo, Alayrac et al. (2022)) and human reward annotations. Concretely, we treat success detection as a visual question answering (VQA) problem, denoted SuccessVQA. We study success detection across three vastly different domains: (i) interactive language-conditioned agents in a simulated household, (ii) real world robotic manipulation, and (iii) "in-the-wild" human egocentric videos. We investigate the generalisation properties of a Flamingo-based success detection model across unseen language and visual changes in the first two domains, and find that the proposed method is able to outperform bespoke reward models in out-of-distribution test scenarios with either variation. In the last domain of "in-the-wild" human videos, we show that success detection on unseen real videos presents an even more challenging generalisation task warranting future work. We hope our initial results encourage further work in real world success detection and reward modelling.
연구 동기 및 목표
- 강건하고 일반화 가능한 성공 감지기를 에이전트의 보상 또는 평가자로 삼기 위한 동기 부여.
- 대형 사전학습 비전-언어 모델을 활용해 언어 및 시각 변형에 걸쳐 일반화합니다.
- 단일 학습 프레임워크를 사용해 다양한 도메인에서 성공 감지를 통합합니다.
- 시뮬레이션 IA Playroom, 로봇 조작, 및 Ego4D 데이터셋에서 SuccessVQA의 이점을 입증합니다.
제안 방법
- 성공 감지를 SuccessVQA라는 시각적 질문 응답(VQA) 태스크로 공식화합니다.
- Flamingo(3B)를 미세-조정하는데 비전 구성요소를 업데이트하고 언어 구성요소는 고정합니다.
- 작업 궤적을 클립으로 분할하고 인간 레이블로부터 성공 지점을 주석처리하여 SuccessVQA 데이터셋을 만듭니다.
- 작업 템플릿 또는 내레이션으로 질문을 생성하고 성공 프레임에 따라 답을 Yes/No로 라벨링합니다.
- 분포 내/분포 외 언어/시각 변형에 대해 세 도메인에서 평가합니다.
- 베이스라인으로 도메인 특화된 성공 감지기를 비교합니다.
실험 결과
연구 질문
- RQ1Flamingo 기반의 성공 감지가 보이지 않는 작업 표현에 일반화할 수 있을까요?
- RQ2로봇 및 실세계 환경에서 보이지 않는 시각 변형(카메라 시점, 방해물)에 대해 SuccessVQA는 얼마나 강건한가요?
- RQ3Out-of-distribution 상황에서 SuccessVQA가 맞춤 보상 모델보다 더 나은가요?
- RQ4SuccessVQA가 현장, 자가시적 영상 데이터에서 성공 감지를 처리할 수 있나요?
주요 결과
| 모델 | Test 1 (unseen episodes) | Test 2 (unseen behaviour) | Test 3 (unseen tasks) |
|---|---|---|---|
| bespoke SD | 80.6% | 85.4% | 49.9% |
| FT Flamingo 3B | 83.4% | 85.0% | 59.3% |
- 미세조정된 Flamingo는 IA Playroom에서 보지 못한 에피소드 및 보지 못한 행동에서 bespoke SD에 근접한다.
- 보이지 않는 작업에서 FT Flamingo 3B는 에피소드 레벨 정확도에서 bespoke 모델보다 약 10 포인트 우수하다.
- Flamingo 기반 감지는 관점 변화와 주의 산만에 대해 bespoke 모델보다 강건함을 보이며 Test 1 정확도에서 몇 포인트 차이로 남는 경우가 많다.
- 초기 Ego4D 실험은 작업이 매우 도전적이지만 더 많은 연구로 실제 세계의 성공 감지에 유망한 방향을 제시한다.
- 도메인 전반에 걸쳐 최소한의 도메인 특화 변경으로도 단일 다중모달 백본이 도메인 특화 보상 모델에 비해 경쟁력 있는 성능을 달성할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.