[論文レビュー] The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption
要約: 脳-記号統合の計画-制御モデルとファインチューニング済み Vision-Language-Action (VLA) モデルを構造化された Towers of Hanoi タスクで比較し、脳-記号アプローチがタスク成功率を高く、エネルギー使用を劇的に低く抑え、4ブロック変種への一般化も示す。
Vision-Language-Action (VLA) models have recently been proposed as a pathway toward generalist robotic policies capable of interpreting natural language and visual inputs to generate manipulation actions. However, their effectiveness and efficiency on structured, long-horizon manipulation tasks remain unclear. In this work, we present a head-to-head empirical comparison between a fine-tuned open-weight VLA model π0 and a neuro-symbolic architecture that combines PDDL-based symbolic planning with learned low-level control. We evaluate both approaches on structured variants of the Towers of Hanoi manipulation task in simulation while measuring both task performance and energy consumption during training and execution. On the 3-block task, the neuro-symbolic model achieves 95% success compared to 34% for the best-performing VLA. The neuro-symbolic model also generalizes to an unseen 4-block variant (78% success), whereas both VLAs fail to complete the task. During training, VLA fine-tuning consumes nearly two orders of magnitude more energy than the neuro-symbolic approach. These results highlight important trade-offs between end-to-end foundation-model approaches and structured reasoning architectures for long-horizon robotic manipulation, emphasizing the role of explicit symbolic structure in improving reliability, data efficiency, and energy efficiency. Code and models are available at https://price-is-not-right.github.io
研究の動機と目的
- 脳-記号統合と Vision-Language-Action モデルの、構造化され長期の操作タスクにおけるタスク性能とエネルギー効率を評価する。
- 未見のタスク変種(例:4-block Towers of Hanoi)への一般化を評価する。
- 両アーキテクチャのトレーニング/推論エネルギー消費を定量化する。
- 信頼性とデータ効率に対する明示的な記号構造の影響を分析する。
提案手法
- ファインチューニング済みオープンウェイト VLA モデル(π0)と、PDDL ベースの記号的計画と拡散ベースの低レベル制御を組み合わせた脳-記号統合アーキテクチャのヘッドツーヘッドの実証比較。
- Robosuite でのシミュレートされた Towers of Hanoi 変種(3-block および 4-block)を評価し、トレーニングと実行中のタスク成功、進捗、およびエネルギー消費を測定。
- 2つの VLA 設定を評価:End-to-End (E2E-VLA) と Planner-Guided (PG-VLA);NSM は象徴的計画とデモから学習したニューラルスキルを使用。
- NSM は learned graph の最小同値分離を介して示範から象徴的演算子を抽象化し、古典的プランナー(PDDL)で解く;低レベルポリシーは拡散ベースで相対的なエンドエフェクタポーズ上で動作。
実験結果
リサーチクエスチョン
- RQ1脳-記号統合アーキテクチャは、構造化された長期的操作タスクにおいて、成功率と未知の構成への一般化の点で、ファインチューニング済み VLAs を上回るか。
- RQ2NSM と VLA モデルのトレーニング/ファインチューニングと推論のエネルギーコストはどの程度か。
- RQ3明示的な記号的計画は、 Towers of Hanoi のような多手順タスクにおいて、エンドツーエンド VLA アプローチより信頼性とデータ効率を改善できるか。
- RQ4VLAs はより高ブロック variant(例:4-block)へ NSM と比べてどれほど一般化できるか。
主な発見
- 3-block Towers of Hanoi では、NSM が 95% の成功率、対して最も優れた VLA は 34%。
- NSM は未見の 4-block 変種へ 78% の成功率で一般化;両方の VLA は 4-block タスクを完遂できず。
- トレーニングエネルギー:NSM は総エネルギー約 0.65–0.85 MJ、対して VLA は約 64–68 MJ、すなわち NSM は約二桁オーダー低い。
- 推論:VLA は GPU 後方推論のため全体のエネルギーを大幅に消費;NSM は推論時に GPU を使用しない。
- NSM は 3-block タスクでほぼ完璧に近い性能を達成し、エピソード毎の所要時間が VLA より著しく短い(例:Individual Move: NSM 6.3 s vs. E2E-VLA 13.8 s)。
- VLM ベースのプランナー(GPT-5、Qwen、PaLI-Gemma)は、計画精度が限られ、クエリあたりのエネルギーが高く、VLM ドリブン計画の不安定さとコストを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。