[논문 리뷰] StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating
tldr: StreamVLA는 한 백본에서 느린 계획과 빠른 행동을 구분하는 이중 시스템의 게이팅 아키텍처를 도입하여 완성 상태 상상을 통해 추론을 게이트하고 지연 시간을 줄이면서 장기 지향 조작 성능을 강화합니다.
Long-horizon robotic manipulation requires bridging the gap between high-level planning (System 2) and low-level control (System 1). Current Vision-Language-Action (VLA) models often entangle these processes, performing redundant multimodal reasoning at every timestep, which leads to high latency and goal instability. To address this, we present StreamVLA, a dual-system architecture that unifies textual task decomposition, visual goal imagination, and continuous action generation within a single parameter-efficient backbone. We introduce a "Lock-and-Gated" mechanism to intelligently modulate computation: only when a sub-task transition is detected, the model triggers slow thinking to generate a textual instruction and imagines the specific visual completion state, rather than generic future frames. Crucially, this completion state serves as a time-invariant goal anchor, making the policy robust to execution speed variations. During steady execution, these high-level intents are locked to condition a Flow Matching action head, allowing the model to bypass expensive autoregressive decoding for 72% of timesteps. This hierarchical abstraction ensures sub-goal focus while significantly reducing inference latency. Extensive evaluations demonstrate that StreamVLA achieves state-of-the-art performance, with a 98.5% success rate on the LIBERO benchmark and robust recovery in real-world interference scenarios, achieving a 48% reduction in latency compared to full-reasoning baselines.
연구 동기 및 목표
- 고급 수준 계획(System 2)과 저수준 제어(System 1) 간의 간극을 장기 지향 로봇 조작에서 연결합니다.
- 하위 작업 전환에서만 무거운 추론을 게이트하여 매 timestep의 다중 모달 추론 중복을 제거합니다.
- 목표를 grounding하기 위한 완성 상태 imaginations 헤드를 도입하고 계산을 조절하는 가벼운 게이팅 모듈을 도입합니다.
- LIBERO와 RoboTwin 2.0 벤치마크에서 지연 시간을 개선한 상태에서 최첨단 성능을 시연합니다.
- 동적이고 예견 기반의 제어 루프를 통해 실제 세계 교란에 대한 강건함을 보여줍니다.]
- method:[
- Unified Vision-Language-Action 백본은 인지, 계획, 제어 간 매개변수를 공유합니다.
- Lock-and-Gated 메커니즘은 완성 상태 이미지를 목표 앵커로 사용하고 System 2 계획의 트리거 여부를 결정합니다.
- 무한대 비트와이즈 자기회귀 모델에 기반한 imaginations 헤드는 하위 작업 완료 상태를 생성합니다.
- 게이팅 모듈은 현재 관찰과 잠긴 완료 목표 간의 차이 점수를 계산하여 Skip 모드와 Full 모드 간 전환을 수행합니다.
- 액션 헤드는 잠긴 고수준 의도(텍스트 계획 및 시각적 목표)에 조건화된 Flow Matching을 사용합니다.
- 두 단계 커리큘럼: 1단계는 고정된 백본과 함께 이미지 상상력 및 하위 작업 헤드를 정렬; 2단계에서 엔드투엔드를 미세 조정합니다.
제안 방법
- Unified Vision-Language-Action 백본이 인지, 계획, 제어 간 매개변수를 공유합니다.
- Lock-and-Gated 메커니즘은 완성 상태 이미지를 목표 앵커로 사용하고 System 2 계획의 트리거 여부를 결정합니다.
- 무한대 비트로 autoregressive 모델에 기반한 imaginations 헤드는 하위 작업 완료 상태를 생성합니다.
- 게이팅 모듈은 현재 관찰과 잠긴 완료 목표 간의 차이 점수를 계산하여 Skip Mode와 Full Mode 간 전환을 수행합니다.
- 액션 헤드는 잠긴 고수준 의도(텍스트 계획 및 시각적 목표)에 조건화된 Flow Matching을 사용합니다.
- 두 단계 커리큘럼: Stage I은 상상력과 하위 작업 헤드를 동조하고 백본을 고정; Stage II는 엔드투엔드 미세 조정합니다.
실험 결과
연구 질문
- RQ1일반적인 VLA 백본이 빠른 제어와 느린 계획을 모두 지연 없이 지원할 수 있을까?
- RQ2하위 작업 완료 상태를 예측하는 것이 고정 시간의 미래 프레임보다 더 안정적이고 속도에 불변하는 시각적 앵커를 제공할까?
- RQ3가벼운 게이팅 메커니즘이 지연 시간을 줄이면서 장기 지향 작업 성공을 보존하는 데 얼마나 효과적인가?
- RQ4텍스트 계획과 시각적 상상이 모두 성능과 강건성에 미치는 영향은 무엇인가?
주요 결과
| Method | Scale | Params (B) | Spatial | Object | Goal | Long | Average |
|---|---|---|---|---|---|---|---|
| FlowVLA | Large | 8.5 | 93.2 | 95.0 | 91.6 | 72.6 | 88.1 |
| UnifiedVLA | 8.5 | 95.4 | 98.8 | 93.6 | 94.0 | 95.5 | |
| OpenVLA | 7 | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 | |
| OpenVLA-OFT | 7 | 97.6 | 98.4 | 97.9 | 94.5 | 97.1 | |
| UniVLA | 7 | 96.5 | 96.8 | 95.6 | 92.0 | 95.2 | |
| CoT-VLA | 7 | 87.5 | 91.6 | 87.6 | 69.0 | 81.1 | |
| WorldVLA | 7 | 87.6 | 96.2 | 83.4 | 60.0 | 81.8 | |
| ThinkAct | 7 | 88.3 | 91.4 | 87.1 | 70.9 | 84.4 | |
| MemoryVLA | 7 | 98.4 | 98.4 | 96.4 | 95.6 | 96.5 | |
| 4D-VLA | 4 | 88.9 | 95.2 | 90.9 | 79.1 | 88.6 | |
| SpatialVLA | 4 | 88.2 | 89.9 | 78.6 | 55.5 | 78.1 | |
| π0 | 3 | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 | |
| π0-FAST | 3 | 96.4 | 96.8 | 88.6 | 60.2 | 85.5 | |
| StreamVLA | Medium | 3 | 99.2 | 99.4 | 98.6 | 96.6 | 98.5 |
- LIBERO에서 평균 성공률 98.5%를 달성하여 파생 방법보다 매개변수가 적은 StreamVLA(3B 대 7B+)보다 우수합니다.
- LIBERO-Long 성공률 96.6%를 유지하며 장기 지향 계획에 대한 강건성을 보여줍니다.
- 전체 추론 기반 벤치마크 대비 평균 48%의 지연 시간 감소를 제공합니다(244 ms에서 128 ms로).
- RoboTwin 2.0의 하드 설정에서 평균 37.2%의 성공률을 보여 강력한 벤치마크를 도메인 난수화 하에서도 능가합니다.
- 게이팅이 Pareto 최적의 속도/정확성을 제공함을 나타내는 변화 분석이 있으며, 텍스트 계획과 시각적 상상 두 가지가 기여합니다; 고정 단계 예측(t+Δt)은 완성 상태 예측에 미달합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.