QUICK REVIEW

[논문 리뷰] StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating

Chen, Tongqing, Wu, Hang|arXiv (Cornell University)|2026. 02. 01.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

tldr: StreamVLA는 한 백본에서 느린 계획과 빠른 행동을 구분하는 이중 시스템의 게이팅 아키텍처를 도입하여 완성 상태 상상을 통해 추론을 게이트하고 지연 시간을 줄이면서 장기 지향 조작 성능을 강화합니다.

ABSTRACT

Long-horizon robotic manipulation requires bridging the gap between high-level planning (System 2) and low-level control (System 1). Current Vision-Language-Action (VLA) models often entangle these processes, performing redundant multimodal reasoning at every timestep, which leads to high latency and goal instability. To address this, we present StreamVLA, a dual-system architecture that unifies textual task decomposition, visual goal imagination, and continuous action generation within a single parameter-efficient backbone. We introduce a "Lock-and-Gated" mechanism to intelligently modulate computation: only when a sub-task transition is detected, the model triggers slow thinking to generate a textual instruction and imagines the specific visual completion state, rather than generic future frames. Crucially, this completion state serves as a time-invariant goal anchor, making the policy robust to execution speed variations. During steady execution, these high-level intents are locked to condition a Flow Matching action head, allowing the model to bypass expensive autoregressive decoding for 72% of timesteps. This hierarchical abstraction ensures sub-goal focus while significantly reducing inference latency. Extensive evaluations demonstrate that StreamVLA achieves state-of-the-art performance, with a 98.5% success rate on the LIBERO benchmark and robust recovery in real-world interference scenarios, achieving a 48% reduction in latency compared to full-reasoning baselines.

연구 동기 및 목표

고급 수준 계획(System 2)과 저수준 제어(System 1) 간의 간극을 장기 지향 로봇 조작에서 연결합니다.
하위 작업 전환에서만 무거운 추론을 게이트하여 매 timestep의 다중 모달 추론 중복을 제거합니다.
목표를 grounding하기 위한 완성 상태 imaginations 헤드를 도입하고 계산을 조절하는 가벼운 게이팅 모듈을 도입합니다.
LIBERO와 RoboTwin 2.0 벤치마크에서 지연 시간을 개선한 상태에서 최첨단 성능을 시연합니다.
동적이고 예견 기반의 제어 루프를 통해 실제 세계 교란에 대한 강건함을 보여줍니다.]
method:[
Unified Vision-Language-Action 백본은 인지, 계획, 제어 간 매개변수를 공유합니다.
Lock-and-Gated 메커니즘은 완성 상태 이미지를 목표 앵커로 사용하고 System 2 계획의 트리거 여부를 결정합니다.
무한대 비트와이즈 자기회귀 모델에 기반한 imaginations 헤드는 하위 작업 완료 상태를 생성합니다.
게이팅 모듈은 현재 관찰과 잠긴 완료 목표 간의 차이 점수를 계산하여 Skip 모드와 Full 모드 간 전환을 수행합니다.
액션 헤드는 잠긴 고수준 의도(텍스트 계획 및 시각적 목표)에 조건화된 Flow Matching을 사용합니다.
두 단계 커리큘럼: 1단계는 고정된 백본과 함께 이미지 상상력 및 하위 작업 헤드를 정렬; 2단계에서 엔드투엔드를 미세 조정합니다.

제안 방법

Unified Vision-Language-Action 백본이 인지, 계획, 제어 간 매개변수를 공유합니다.
Lock-and-Gated 메커니즘은 완성 상태 이미지를 목표 앵커로 사용하고 System 2 계획의 트리거 여부를 결정합니다.
무한대 비트로 autoregressive 모델에 기반한 imaginations 헤드는 하위 작업 완료 상태를 생성합니다.
게이팅 모듈은 현재 관찰과 잠긴 완료 목표 간의 차이 점수를 계산하여 Skip Mode와 Full Mode 간 전환을 수행합니다.
액션 헤드는 잠긴 고수준 의도(텍스트 계획 및 시각적 목표)에 조건화된 Flow Matching을 사용합니다.
두 단계 커리큘럼: Stage I은 상상력과 하위 작업 헤드를 동조하고 백본을 고정; Stage II는 엔드투엔드 미세 조정합니다.

실험 결과

연구 질문

RQ1일반적인 VLA 백본이 빠른 제어와 느린 계획을 모두 지연 없이 지원할 수 있을까?
RQ2하위 작업 완료 상태를 예측하는 것이 고정 시간의 미래 프레임보다 더 안정적이고 속도에 불변하는 시각적 앵커를 제공할까?
RQ3가벼운 게이팅 메커니즘이 지연 시간을 줄이면서 장기 지향 작업 성공을 보존하는 데 얼마나 효과적인가?
RQ4텍스트 계획과 시각적 상상이 모두 성능과 강건성에 미치는 영향은 무엇인가?

주요 결과

Method	Scale	Params (B)	Spatial	Object	Goal	Long	Average
FlowVLA	Large	8.5	93.2	95.0	91.6	72.6	88.1
UnifiedVLA	8.5	95.4	98.8	93.6	94.0	95.5
OpenVLA	7	84.7	88.4	79.2	53.7	76.5
OpenVLA-OFT	7	97.6	98.4	97.9	94.5	97.1
UniVLA	7	96.5	96.8	95.6	92.0	95.2
CoT-VLA	7	87.5	91.6	87.6	69.0	81.1
WorldVLA	7	87.6	96.2	83.4	60.0	81.8
ThinkAct	7	88.3	91.4	87.1	70.9	84.4
MemoryVLA	7	98.4	98.4	96.4	95.6	96.5
4D-VLA	4	88.9	95.2	90.9	79.1	88.6
SpatialVLA	4	88.2	89.9	78.6	55.5	78.1
π0	3	96.8	98.8	95.8	85.2	94.2
π0-FAST	3	96.4	96.8	88.6	60.2	85.5
StreamVLA	Medium	3	99.2	99.4	98.6	96.6	98.5

LIBERO에서 평균 성공률 98.5%를 달성하여 파생 방법보다 매개변수가 적은 StreamVLA(3B 대 7B+)보다 우수합니다.
LIBERO-Long 성공률 96.6%를 유지하며 장기 지향 계획에 대한 강건성을 보여줍니다.
전체 추론 기반 벤치마크 대비 평균 48%의 지연 시간 감소를 제공합니다(244 ms에서 128 ms로).
RoboTwin 2.0의 하드 설정에서 평균 37.2%의 성공률을 보여 강력한 벤치마크를 도메인 난수화 하에서도 능가합니다.
게이팅이 Pareto 최적의 속도/정확성을 제공함을 나타내는 변화 분석이 있으며, 텍스트 계획과 시각적 상상 두 가지가 기여합니다; 고정 단계 예측(t+Δt)은 완성 상태 예측에 미달합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.