[논문 리뷰] Self-Correcting VLA: Online Action Refinement via Sparse World Imagination
SC-VLA는 희소 세계 상상과 온라인 행동 보정을 비전-언어-행동 제어에 도입하여 ManiSkill 벤치마크와 실제 ARX5에서 더 적은 단계로 최첨단 작업 처리량과 향상된 성공률을 달성합니다.
Standard vision-language-action (VLA) models rely on fitting statistical data priors, limiting their robust understanding of underlying physical dynamics. Reinforcement learning enhances physical grounding through exploration yet typically relies on external reward signals that remain isolated from the agent's internal states. World action models have emerged as a promising paradigm that integrates imagination and control to enable predictive planning. However, they rely on implicit context modeling, lacking explicit mechanisms for self-improvement. To solve these problems, we propose Self-Correcting VLA (SC-VLA), which achieve self-improvement by intrinsically guiding action refinement through sparse imagination. We first design sparse world imagination by integrating auxiliary predictive heads to forecast current task progress and future trajectory trends, thereby constraining the policy to encode short-term physical evolution. Then we introduce the online action refinement module to reshape progress-dependent dense rewards, adjusting trajectory orientation based on the predicted sparse future states. Evaluations on challenging robot manipulation tasks from simulation benchmarks and real-world settings demonstrate that SC-VLA achieve state-of-the-art performance, yielding the highest task throughput with 16% fewer steps and a 9% higher success rate than the best-performing baselines, alongside a 14% gain in real-world experiments. Code is available at https://github.com/Kisaragi0/SC-VLA.
연구 동기 및 목표
- VLA 시스템에서 정적 사전 지식 너머의 강건한 물리적 이해를 동기 부여합니다.
- 행동 생성 전에 단기 물리적 진화를 제한하기 위해 희소 세계 상상을 도입합니다.
- imagined 미래 상태를 사용하여 조밀한 보상을 재구성하는 온라인 행동 보정 모듈을 개발합니다.
- 외부 보상 모델에 의존하지 않고 내재적 상상 기반 신호를 활용합니다.
- 시뮬레이션 및 실제 로봇 조작 작업에서 우수한 성능을 입증합니다.
제안 방법
- 연속 행동 생성을 위한 기본 정책으로 조건부 흐름 매칭을 사용합니다.
- 작업 진행도와 짧은 지평선 상태 변화를 예측하는 희소 세계 상상 타깃으로 입력을 보강합니다.
- 진행도 p_t 및 상대 상태 변화 Δs_t를 예측하는 보조 헤드를 MSE 손실(L_prog, L_Δs)로 학습합니다.
- 온라인 행동 보정을 수행하기 위해 기본 정책 위에 남는 강화 학습 모듈(π_res)을 통합합니다.
- 미래 상태 예측에서 얻은 조밀한 가이던스를 구성하고 작업 진행도에 따라 예측 가이던스를 동적으로 가중합니다(동적 가중 스케줄링).
- 기본 정책과 잔류 정책 모두에서 안정적인 최적화를 위해 SAC를 채택합니다.
실험 결과
연구 질문
- RQ1SC-VLA가 희소 세계 상상과 잔여 모듈을 통해 복잡한 조작 작업에서 흐름 매칭 정책의 성공률을 향상시킬 수 있는가?
- RQ2희소 세계 상상과 동적 가중 스케줄링으로 구성된 조밀한 보상이 희소 보상 하에서 탐색 효율성 및 처리량을 향상시키는가?
- RQ3각 상상 구성요소(진행도, 상태)가 성능에 기여하는 바는 무엇인가?
- RQ4SC-VLA가 실제 로봇 시스템으로 안정적으로 전이되고 교란 하에서 견고성을 유지할 수 있는가?
주요 결과
- SC-VLA는 도전적인 조작 작업에서 최첨단 성능의 최대 작업 처리량과 향상된 성공률을 달성합니다(초록).
- ManiSkill에서 SC-VLA(SPI, OAR)는 최상의 성능에 도달하며, 베이스라인 대비 상당한 개선이 관찰됩니다(예: 일부 사전 학습 모델 대비 PegInsertion에서 최대 28%의 더 높은 성공률).
- SC-VLA는 평가된 방법들 중 가장 짧은 평균 완료 길이를 달성합니다(성공 에피소드의 평균 157단계).
- 실세계 ARX5 실험에서 SC-VLA(SPI)의 평균 성공률은 70%로 DP 및 GR00T N1.5보다 각각 43% 및 14% 더 높습니다.
- 추출 연구(ablation studies)에서 진행도 안내와 상태 안내의 중요성이 전반적 성능에 기여하며, 희소 상상 보상은 복잡한 작업에서 탐색을 크게 돕습니다.
- 동적 가중 스케줄링은 초기 예측 가이던스와 후기 자율 미세 조정 사이의 균형을 맞추는 데 결정적입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.