Skip to main content
QUICK REVIEW

[论文解读] BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

Li, Haosheng, Weixin Mao|arXiv (Cornell University)|Feb 24, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

BFA++ 引入一个面向多视角 Vision-Language-Action 模型的分层二级令牌裁剪框架,在后训练阶段通过动态选择视图和与任务相关的令牌,在 RoboTwin 基准上实现 1.5–1.8× 的加速以及约提高 10% 的成功率。

ABSTRACT

Vision-Language-Action (VLA) models have achieved significant breakthroughs by leveraging Large Vision Language Models (VLMs) to jointly interpret instructions and visual inputs. However, the substantial increase in visual tokens, particularly from multi-view inputs, poses serious challenges to real-time robotic manipulation. Existing acceleration techniques for VLMs, such as token pruning, often result in degraded performance when directly applied to VLA models, as they overlook the relationships between different views and fail to account for the dynamic and task-specific characteristics of robotic operation. To address this, we propose BFA++, a dynamic token pruning framework designed specifically for VLA models. BFA++ introduces a hierarchical pruning strategy guided by two-level importance predictors: an intra-view predictor highlights task-relevant regions within each image to suppress spatial noise, while an inter-view predictor identifies critical camera views throughout different manipulation phases to reduce cross-view redundancy. This design enables efficient token selection while preserving essential visual cues, resulting in improved computational efficiency and higher manipulation success rates. Evaluations on the RoboTwin benchmark and real-world robotic tasks demonstrate that BFA++ consistently outperforms existing methods. BFA++ improves the success rate by about 10% on both the π0 and RDT models, achieving speedup of 1.8X and 1.5X, respectively. Our results highlight that context-sensitive and task-aware token pruning serves as a more effective strategy than full visual processing, enabling faster inference and improved manipulation accuracy in real-world robotic systems.

研究动机与目标

  • 为用于机器人操控的多视角 Vision-Language-Action (VLA) 模型的高效推理提供动力。
  • 解决跨视图的重要性动态性和视内令牌相关性,以减少冗余的视觉令牌。
  • 提出一个针对 VLA 后训练的带监督的两级(跨视图与视内)令牌裁剪框架。
  • 实现与现有 VLA 模型的即插即用集成,以提升速度和成功率。

提出的方法

  • 引入两个轻量级预测器:跨视图重要性预测器 f_inter 和视内重要性预测器 f_intra。
  • 应用分层裁剪:在每个视图内使用视内分数进行局部裁剪,然后通过跨视图和视内分数的融合在所有视图上进行全局裁剪。
  • 将最终令牌重要性计算为 S_final^{v,n} = S_inter^{v} * S_intra^{v,n},并基于全局排序进行裁剪。
  • 通过离线系统(基于 LLM 的、边界框、人工)标注地面真值的跨视图和视内重要性,并在 VLA 后训练中使用辅助损失来训练预测器。
  • 在进入 LLM 骨干之前(或在 RDT 的指定层)裁剪令牌,以维持 KV 缓存并加速。
  • 利用空间自适应加权来平滑相邻令牌之间的视内重要性。

实验结果

研究问题

  • RQ1如何估计并利用跨视图与视内令牌重要性来裁剪令牌,而不降低 VLA 的性能?
  • RQ2分层、任务感知、动态令牌裁剪是否在仿真与真实世界任务中提高多视角 VLA 模型的速度和操控成功率?
  • RQ3所提的 BFA++ 框架能否在 RoboTwin 设置中对不同 VLA 骨干(如 pi0、RDT)和任务实现泛化?
  • RQ4裁剪比率与裁剪计划对推理速度和任务成功率的影响如何?

主要发现

  • BFA++ 在 pi0 和 RDT 基线上实现了 1.5× 至 1.8× 的加速,成功率约提高 10%。
  • 跨视图和视内预测器与骨干网络联合训练,能有效识别在操控任务中哪些视图和哪些令牌最关键。
  • 分层裁剪避免关键腕部视图信息的损失,并在动态操控阶段保持鲁棒性能。
  • 可视化分析(t-SNE、Grad-CAM)显示裁剪后令牌冗余减少,聚焦于夹持器和交互对象的注意力更集中。
  • 消融研究证实两种预测器和分层裁剪方案的必要性,并在合理范围内对裁剪参数具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。