Skip to main content
QUICK REVIEW

[論文レビュー] BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

Li, Haosheng, Weixin Mao|arXiv (Cornell University)|Feb 24, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

BFA++ はマルチビュー Vision-Language-Action モデルの階層的な二段階トークンプルーニングフレームワークを導入し、ポストトレーニング中にビューとタスク関連トークンを動的に選択することで RoboTwin ベンチマークで1.5–1.8×のスピードアップと約10%の成功率向上を達成します。

ABSTRACT

Vision-Language-Action (VLA) models have achieved significant breakthroughs by leveraging Large Vision Language Models (VLMs) to jointly interpret instructions and visual inputs. However, the substantial increase in visual tokens, particularly from multi-view inputs, poses serious challenges to real-time robotic manipulation. Existing acceleration techniques for VLMs, such as token pruning, often result in degraded performance when directly applied to VLA models, as they overlook the relationships between different views and fail to account for the dynamic and task-specific characteristics of robotic operation. To address this, we propose BFA++, a dynamic token pruning framework designed specifically for VLA models. BFA++ introduces a hierarchical pruning strategy guided by two-level importance predictors: an intra-view predictor highlights task-relevant regions within each image to suppress spatial noise, while an inter-view predictor identifies critical camera views throughout different manipulation phases to reduce cross-view redundancy. This design enables efficient token selection while preserving essential visual cues, resulting in improved computational efficiency and higher manipulation success rates. Evaluations on the RoboTwin benchmark and real-world robotic tasks demonstrate that BFA++ consistently outperforms existing methods. BFA++ improves the success rate by about 10% on both the π0 and RDT models, achieving speedup of 1.8X and 1.5X, respectively. Our results highlight that context-sensitive and task-aware token pruning serves as a more effective strategy than full visual processing, enabling faster inference and improved manipulation accuracy in real-world robotic systems.

研究の動機と目的

  • ロボット操作に用いられるマルチビュー Vision-Language-Action (VLA) モデルの推論 efficiency を動機づける。
  • 動的なビュー間の重要性とビュー内トークンの関連性に対処して、冗長な視覚トークンを削減する。
  • VLA ポストトレーニングに特化した監視付きの二段階(ビュー間およびビュー内)トークンプルーニングフレームワークを提案する。
  • 既存のVLAモデルへのプラグアンドプレー統合を可能にし、速度と成功率を改善する。

提案手法

  • 二つの軽量な予測子を導入する:ビュー間重要度予測子 (f_inter) とビュー内重要度予測子 (f_intra)。
  • 階層的プルーニングを適用する:各ビュー内でのローカルプルーニングをビュー内スコアで行い、次にビュー間およびビュー内スコアの融合による全ビュー横断のグローバルプルーニングを行う。
  • 最終トークン重要度を S_final^{v,n} = S_inter^{v} * S_intra^{v,n}として計算し、グローバルなランキングに基づいてプルーニングする。
  • オフラインシステム(LLMベース、境界ボックス、手動)による真のビュー間およびビュー内重要度をアノテートし、VLA ポストトレーニング中に補助損失で予測子を訓練する。
  • KVキャッシュを維持しスピードを高めるため、LLMバックボーン入力前(またはRDTの場合は特定レイヤーで)トークンをプルーニングする。
  • 隣接トークン間でビュー内重要度を滑らかにする空間的適応ウェイティングを活用する。

実験結果

リサーチクエスチョン

  • RQ1ビュー間およびビュー内トークン重要度をどう推定し、VLAの性能を低下させずにトークンをプルーニングするか。
  • RQ2階層的でタスク認識型の動的トークンプルーニングは、シミュレーションと現実世界のタスクを通じてマルチビューVLAモデルの速度と操作成功を向上させるか。
  • RQ3提案する BFA++ フレームワークは RoboTwin 設定の異なるVLAバックボーン(例:pi0、RDT)やタスクに一般化できるか。
  • RQ4プルーニング比とプルーニングスケジュールが推論速度とタスク成功の両方に及ぼす影響はどの程度か。

主な発見

  • BFA++ は pi0 および RDT のベースラインで1.5×〜1.8×のスピードアップと約10%の成功率向上をもたらす。
  • ビュー間およびビュー内予測子は、バックボーンと共同訓練され、操作タスクにとってどのビューとどのトークンが重要かを効果的に特定する。
  • 階層的プルーニングは重要な手首ビュー情報の喪失を防ぎ、動的な操作フェーズ全体で堅牢な性能を維持する。
  • 可視化分析(t-SNE、Grad-CAM)により、プルーニング後はトークンの冗長性が減少し、グリッパーやインタラクティブオブジェクトへのフォーカスが強化される。
  • アブレーション研究は、両方の予測子と階層的プルーニングスキームの必須性を確認し、妥当な範囲内のプルーニングパラメータに対してもロバストであることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。