QUICK REVIEW

[論文レビュー] LIBERO-X: Robustness Litmus for Vision-Language-Action Models

Guodong Wang, Chenkai Zhang|arXiv (Cornell University)|Feb 6, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

LIBERO-X は階層的で多段階の評価と高多様性のトレーニングセットを組み合わせ、Vision–Language–Action モデルのロバストネスと一般化を多次元分布シフトの下で厳密に評価します。

ABSTRACT

Reliable benchmarking is critical for advancing Vision-Language-Action (VLA) models, as it reveals their generalization, robustness, and alignment of perception with language-driven manipulation tasks. However, existing benchmarks often provide limited or misleading assessments due to insufficient evaluation protocols that inadequately capture real-world distribution shifts. This work systematically rethinks VLA benchmarking from both evaluation and data perspectives, introducing LIBERO-X, a benchmark featuring: 1) A hierarchical evaluation protocol with progressive difficulty levels targeting three core capabilities: spatial generalization, object recognition, and task instruction understanding. This design enables fine-grained analysis of performance degradation under increasing environmental and task complexity; 2) A high-diversity training dataset collected via human teleoperation, where each scene supports multiple fine-grained manipulation objectives to bridge the train-evaluation distribution gap. Experiments with representative VLA models reveal significant performance drops under cumulative perturbations, exposing persistent limitations in scene comprehension and instruction grounding. By integrating hierarchical evaluation with diverse training data, LIBERO-X offers a more reliable foundation for assessing and advancing VLA development.

研究の動機と目的

VLA モデルのベンチマークを、複数ソースの分布シフトに対処することでより信頼性の高いものにする。
空間的・対象・言語的撹乱を含む5レベルの評価プロトコルをLIBERO-Xとして導入する。
トレーニングとテストの分布ギャップを埋めるために高い多様性を持つトレーニングデータセットを人間の遠隔操作で作成する。
マルチラベルタスク注釈を通じた細かな診断を可能にし、故障モードを特定する。

提案手法

5レベルの階層的評価（L1–L5）を提案し、徐々に空間・位相・視覚・意味論的撹乱を適用する。
属性として「インタラクション種別」「サブタスク数」「空間関係」「対象属性」を含むマルチラベル評価方式を使用する。
高い多様性を持つ遠隔操作データセットを構築する：2,520 件のデモンストレーション、600 件のタスク、100 件のシーン。
LIBERO-X のトレーニングデータで監督付き微調整を通じて、5つの代表的な VLA モデルを評価する。
レベル間での性能低下を分析し、ロバストネスとグ grounding の欠陥を特定する。

実験結果

リサーチクエスチョン

RQ1空間的・トポロジー的・視覚的・言語的撹乱を段階的に強化した分布シフトに対して、VLA モデルはどのように性能を発揮するか。
RQ2トレーニングデータの多様性は、見たことのないタスク・物体・シーンへの一般化を改善するか。
RQ3現在の VLA モデルの主な故障モードは、空間推論・物体グ grounding・言語整合性の観点でどのようなものか。
RQ4タスクのホライゾン長と時間制約は長距離操作の性能にどのように影響するか。
RQ5指示の言語的変異が実行精度にどの程度影響を与えるか。

主な発見

モデル	LEVEL 1	LEVEL 2	LEVEL 3	LEVEL 4	LEVEL 5
OpenVLA-OFT	29.0	17.6	8.8	6.4	4.2
π0	29.4	21.9	11.0	7.6	5.1
X-VLA	30.1	22.6	10.3	6.0	4.1
GR00T1.5	43.3	32.9	18.7	13.3	9.7
π0.5	65.2	53.2	36.0	24.1	18.0

レベルが上がるにつれて平均成功率が大きく低下し、Level 1 から Level 5 へとモデル間で顕著な劣化を示す。
Level 2 は Level 1 と比較して平均成功率を9.8%低下させる。
Level 3 は単一レベルで最も大きな低下を示し12.7%の低下で、シーンのトポロジー変化に対する感度を示す。
データの多様性は新たな一般化を生み出すが、未知の対象のグ grounding は依然としてボトルネック（未知の対象に対する精度は混同行動物より低い）。
言語撹乱は性能に中程度の影響を与え、意味の再構成は小さな低下をもたらし、声変換が最も影響が小さい変種である。
タスクホライゾンの長さは性能を重大に制限する；3段階タスクはほとんどのモデルで成功率をほぼゼロに近づける。
緩和された時間制限は成功率を改善するが、人間の時間の約1.3倍で頭打ちとなり、タイミングを超えた内在的能力の限界を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。