QUICK REVIEW

[논문 리뷰] Vision-Language Models Unlock Task-Centric Latent Actions

Alexander Nikulin, Ilya Zisman|arXiv (Cornell University)|2026. 01. 30.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

이 논문은 Vision-Language Models의 프롬프트 가능 표현을 사용해 방해자를 필터링하고 잠재 행동 학습을 개선하여 감독 없이 Distracting MetaWorld에서 다운스트림 성공이 최대 six-fold 증가한다.

ABSTRACT

Latent Action Models (LAMs) have rapidly gained traction as an important component in the pre-training pipelines of leading Vision-Language-Action models. However, they fail when observations contain action-correlated distractors, often encoding noise instead of meaningful latent actions. Humans, on the other hand, can effortlessly distinguish task-relevant motions from irrelevant details in any video given only a brief task description. In this work, we propose to utilize the common-sense reasoning abilities of Vision-Language Models (VLMs) to provide promptable representations, effectively separating controllable changes from the noise in unsupervised way. We use these representations as targets during LAM training and benchmark a wide variety of popular VLMs, revealing substantial variation in the quality of promptable representations as well as their robustness to different prompts and hyperparameters. Interestingly, we find that more recent VLMs may perform worse than older ones. Finally, we show that simply asking VLMs to ignore distractors can substantially improve latent action quality, yielding up to a six-fold increase in downstream success rates on Distracting MetaWorld.

연구 동기 및 목표

관찰로부터의 오프라인 모방 학습에서 행동 상관 방해 요소 하에서 잠재 행동 학습 해결의 동기를 부여합니다.
잡힌 프롬프트 가능한 VLM 표현을 잠재 행동 모델의 타깃으로 비감독적으로 활용하여 제어 가능한 변화와 잡음을 구분할 것을 제안합니다.
프롬프트 품질, 강건성, 언어 컨디셔닝 효과를 평가하기 위해 광범위한 VLM들을 벤치마킹합니다.
프롬프트 가능 표현이 진짜 행동 감독 없이도 잠재 행동 품질과 다운스트림 성능을 크게 향상시킬 수 있음을 입증합니다.

제안 방법

프롬프트 가능 표현 정의: 작업 특화 프롬프트와 간단한 풀링 전략을 사용하여 VLM으로부터 관찰 임베딩을 얻습니다.
이 표현들을 잠재 행동 모델의 Forward Dynamics Model(FDM)의 타깃으로 사용하여 행동 양자화를 피합니다.
프롬프트 품질과 프롬프트/하이퍼파라미터에 대한 강건성을 평가하기 위해 MT10 전역에서 29k+ 실험으로 다수의 VLM을 벤치마킹합니다.
잠재 행동으로부터 실제 행동을 예측하는 선형 프로브를 통해 잠재 행동 품질을 평가하고 라벨링된 미세 조정 후 다운스트림 성공을 측정합니다.
방해 동영상들을 추가하고 표준 LAPO 기초선과 비교하여 통제된 Distracting MetaWorld 설정을 수행합니다.

Figure 1 : Main result . Success rate on MetaWorld-10 benchmark for LAPO and proposed LAPO+VLM (Molmo), which uses promptable representations. We use three random seeds and report IQM and $95\%$ -CI based on stratified bootstrapping, following the Agarwal et al. ( 2021 ) . See Section 7 for full res

실험 결과

연구 질문

RQ1Vision-Language Models의 프롬프트 가능한 표현이 방해 요소 소음을 제어 가능한 변화와 구분해 잠재 행동 학습에 도움이 될 수 있습니까?
RQ2어떤 VLM과 프롬프트 전략이 방해자 하에서 최상의 잠재 행동과 다운스트림 정책 성능을 제공합니까?
RQ3언어 조건 프롬핑이 LAM 타깃에 대해 자기지도 학습 기반(CLIP, DINOv2 등)보다 우수한가요?
RQ4선택된 잠재 행동 차원이 VLM 안내 타깃의 효과에 어떤 영향을 줍니까?
RQ5MT10의 작은 하위 집합 벤치마킹에서 얻은 개선이 전체 데이터셋으로의 전이에서 얼마나 나타나나요?

주요 결과

프롬프트 가능 표현은 LAPO에 비해 상당한 개선을 가져오며 Molmo가 하이퍼파라미터 전반에 걸쳐 가장 높은 강건성을 제공합니다.
언어 조건화와 작업 중심 프롬프트를 갖춘 VLM은 잠재 행동 품질을 크게 높여 방해자의 영향력을 줄입니다.
Distracting MetaWorld에서 LAPO+VLM과 프롬프트 가능 표현을 사용할 때 다운스트림 성공률이 여섯 배로 개선되었습니다.
임베딩 기반 VLM(C LP-계열 포함)은 프롬프트 가능 VLM보다 뒤처졌으며, 언어 조건화가 성능에 결정적입니다.
전체 MT10 데이터에서 LAPO+Molmo 및 관련 VLM은 방해자 없는 성능과의 격차를 좁히고, 잠재 행동 차원 축소가 결과를 더 개선합니다.
프롬프트 가능한 표현은 Distractor 설정에서 OTTER 및 UniVLA와 같은 베이스라인보다 우수할 수 있습니다.
Molmo의 이득의 원천은 아키텍처 변화라기보다 데이터 품질일 가능성이 높으며, 동일 데이터로도 백본이 다르면 결과가 달라집니다.

Figure 2 : Visualization of the task-relevant promptable representations extraction from the VLMs and their subsequent use as targets during latent action learning.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.