Skip to main content
QUICK REVIEW

[论文解读] The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption

Timothy R. Duggan, Pierrick Lorang|arXiv (Cornell University)|Feb 22, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

本论文将一个神经符号规划-控制模型与经过微调的 Vision-Language-Action (VLA) 模型在结构化的 Towers of Hanoi 任务上进行对比,结果显示神经符号方法在任务成功率更高且能量使用显著更低,并且能推广到4块变体。

ABSTRACT

Vision-Language-Action (VLA) models have recently been proposed as a pathway toward generalist robotic policies capable of interpreting natural language and visual inputs to generate manipulation actions. However, their effectiveness and efficiency on structured, long-horizon manipulation tasks remain unclear. In this work, we present a head-to-head empirical comparison between a fine-tuned open-weight VLA model π0 and a neuro-symbolic architecture that combines PDDL-based symbolic planning with learned low-level control. We evaluate both approaches on structured variants of the Towers of Hanoi manipulation task in simulation while measuring both task performance and energy consumption during training and execution. On the 3-block task, the neuro-symbolic model achieves 95% success compared to 34% for the best-performing VLA. The neuro-symbolic model also generalizes to an unseen 4-block variant (78% success), whereas both VLAs fail to complete the task. During training, VLA fine-tuning consumes nearly two orders of magnitude more energy than the neuro-symbolic approach. These results highlight important trade-offs between end-to-end foundation-model approaches and structured reasoning architectures for long-horizon robotic manipulation, emphasizing the role of explicit symbolic structure in improving reliability, data efficiency, and energy efficiency. Code and models are available at https://price-is-not-right.github.io

研究动机与目标

  • 评估神经符号与 Vision-Language-Action 模型在结构化、长时域操作任务上的任务性能和能量效率。
  • 评估对未见任务变体的泛化能力(如4块 Towers of Hanoi)。
  • 量化两种架构范式的训练/推理能量消耗。
  • 分析显式符号结构对可靠性和数据效率的影响。

提出的方法

  • 在微调的开源权重 VLA 模型(π0)与将 PDDL 基符号规划结合扩散式低层控制的神经符号架构之间进行头对头的经验比较。
  • 在 Robosuite 的模拟 Towers of Hanoi 变体(3 块和 4 块)上进行评估;在训练和执行阶段测量任务成功、推进度和能量消耗。
  • 测试两种 VLA 配置:端到端(E2E-VLA)和规划者引导(PG-VLA);NSM 使用符号规划加上从示范中学习的神经技能。
  • NSM 通过对学习图的最小双等价抽象从演示中提取符号操作符,然后用经典规划器(PDDL)求解;低层策略基于扩散并在相对末端执行器姿态上工作。

实验结果

研究问题

  • RQ1神经符号架构在结构化的长时域操控任务中的任务成功率和对未见配置的泛化是否优于微调的 VLA?
  • RQ2相对于 NSM 与 VLA 模型,训练/微调和推理的能源成本各是多少?
  • RQ3显式符号规划在多步任务(如 Towers of Hanoi)上的可靠性和数据效率是否优于端到端 VLA 方法?
  • RQ4与 NSM 相比,VLA 在高块数变体上的泛化能力(如4块)有多大差距?

主要发现

  • 在3块 Towers of Hanoi 上,NSM 的成功率为95%,而最佳 VLA为34%。
  • NSM 能泛化到未见的4块变体,成功率为78%;两种 VLA 均无法完成4块任务。
  • 训练能量:NSM 约需要0.65–0.85 MJ 总能量,而 VLA 约需64–68 MJ,NSM 能量几乎低两个数量级。
  • 推理阶段:VLA 由于 GPU 支撑的推理而总体能耗显著更高;NSM 推理阶段不使用 GPU。
  • NSM 在3块任务上几乎达到完美表现,且每回合时间显著低于 VLA(例如 单步移动:NSM 6.3 s vs. E2E-VLA 13.8 s)。
  • 以 GPT-5、Qwen、PaLI-Gemma 为代表的基于 VLM 的规划器在规划精度上有限且每次查询能量高,凸显 VLM 驱动的规划的不稳定性与成本。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。