[논문 리뷰] LIBERO-X: Robustness Litmus for Vision-Language-Action Models
LIBERO-X는 다층 계층적 평가와 고다양성 학습 세트를 결합하여 다차원 분포 변동 하에서 비전–언어–행동 모델의 강건성 및 일반화를 엄격하게 평가합니다.
Reliable benchmarking is critical for advancing Vision-Language-Action (VLA) models, as it reveals their generalization, robustness, and alignment of perception with language-driven manipulation tasks. However, existing benchmarks often provide limited or misleading assessments due to insufficient evaluation protocols that inadequately capture real-world distribution shifts. This work systematically rethinks VLA benchmarking from both evaluation and data perspectives, introducing LIBERO-X, a benchmark featuring: 1) A hierarchical evaluation protocol with progressive difficulty levels targeting three core capabilities: spatial generalization, object recognition, and task instruction understanding. This design enables fine-grained analysis of performance degradation under increasing environmental and task complexity; 2) A high-diversity training dataset collected via human teleoperation, where each scene supports multiple fine-grained manipulation objectives to bridge the train-evaluation distribution gap. Experiments with representative VLA models reveal significant performance drops under cumulative perturbations, exposing persistent limitations in scene comprehension and instruction grounding. By integrating hierarchical evaluation with diverse training data, LIBERO-X offers a more reliable foundation for assessing and advancing VLA development.
연구 동기 및 목표
- 다중 소스 분포 변동을 다루어 VLA 모델에 대한 보다 신뢰할 수 있는 벤치마킹을 촉진합니다.
- 다섯 수준의 평가 프로토콜로 LIBERO-X를 도입합니다(공간, 객체, 언어 교란을 망라).
- 훈련-테스트 분포 차이를 연결하기 위해 인간 원격 조작을 통한 고다양성 학습 데이터셋을 생성합니다.
- 다중 레이블 작업 주석을 통해 세밀한 진단을 가능하게 하여 실패 모드를 식별합니다.
제안 방법
- 진행식 공간적, 위상, 시각 및 의미론적 변형을 포함하는 5단계 계층적 평가(L1–L5)를 제안합니다.
- 상호작용 유형, 하위작업 수, 공간 관계, 객체 속성의 특성으로 다중 레이블 평가 체계를 사용합니다.
- 고다양성 원격조작 데이터 세트를 구성합니다: 2,520개 시연, 600개 작업, 100개 장면.
- LIBERO-X 학습 데이터를 사용해 지도적 미세조정을 통해 다섯 가지 대표 VLA 모델을 평가합니다.
- 레벨 간 성능 저하를 분석하여 강건성 및 접지 문제를 파악합니다.
실험 결과
연구 질문
- RQ1공간, 위상, 시각, 언어 변형을 점진적으로 더 어려운 분포 변동 하에서 VLA 모델이 어떻게 수행하는가?
- RQ2학습 데이터의 다양성이 보지 않은 작업, 객체, 장면에 대한 일반화를 향상시키는가?
- RQ3현재 VLA 모델의 실패 모드는 공간 추론, 객체 정합성 및 언어 정렬 측면에서 무엇인가?
- RQ4작업 지평선 길이와 시간 제한이 장기 조작 성능에 어떤 영향을 미치는가?
- RQ5지시문의 언어적 변형이 실행 정확도에 어느 정도 영향을 미치는가?
주요 결과
| 모델 | 레벨 1 | 레벨 2 | 레벨 3 | 레벨 4 | 레벨 5 |
|---|---|---|---|---|---|
| OpenVLA-OFT | 29.0 | 17.6 | 8.8 | 6.4 | 4.2 |
| π0 | 29.4 | 21.9 | 11.0 | 7.6 | 5.1 |
| X-VLA | 30.1 | 22.6 | 10.3 | 6.0 | 4.1 |
| GR00T1.5 | 43.3 | 32.9 | 18.7 | 13.3 | 9.7 |
| π0.5 | 65.2 | 53.2 | 36.0 | 24.1 | 18.0 |
- 레벨이 올라갈수록 평균 성공률이 크게 감소하며, 레벨 1에서 레벨 5로 갈수록 모든 모델에서 현저한 저하가 나타난다.
- 레벨 2는 레벨 1에 비해 평균 성공률이 9.8% 감소한다.
- 레벨 3은 동일 레벨 중 가장 큰 감소폭인 12.7%를 기록하여 장면 위상 변화에 대한 민감성을 시사한다.
- 데이터 다양성은 독립적 일반화를 가능하게 하지만 보지 않은 물체 접지 문제는 여전히 병목이며, 보지 않은 물체에서의 정확도가 혼동 요인보다 낮다.
- 언어 변형은 성능에 중간 정도 영향을 미치며 의미적 재구성은 더 작은 감소를 일으키고 음성 변환이 가장 덜 방해된다.
- 작업 지평선 길이는 성능을 크게 제한한다; 세 단계 작업은 대부분의 모델에서 성공률이 거의 0에 근접한다.
- 느슨한 시간 제한은 성공률을 개선하지만 인간 시간의 약 1.3배에서 정체된다, 타이밍을 넘어서는 내재적 능력 한계를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.