[論文レビュー] Environment-Aware Adaptive Pruning with Interleaved Inference Orchestration for Vision-Language-Action Models
EcoVLAは環境認識剪定(EAP)と介在推論オーケストレーション(I2O)を用いるトレーニングなしのプラグアンドプレイ適応剪定フレームワークで、最小の精度低下でリアルタイムのスピードアップを実現します。さまざまな設定で最大1.60x–2.18xのスピードアップを達成します。
While Vision-Language-Action (VLA) models hold promise in embodied intelligence, their large parameter counts lead to substantial inference latency that hinders real-time manipulation, motivating parameter sparsification. However, as the environment evolves during VLA execution, the optimal sparsity patterns change accordingly. Static pruning lacks the adaptability required for environment dynamics, whereas fixed-interval dynamic layer pruning suffers from coarse granularity and high retraining overheads. To bridge this gap, we propose EcoVLA, a training-free, plug-and-play adaptive pruning framework that supports orthogonal combination with existing VLA acceleration methods. EcoVLA comprises two components: Environment-aware Adaptive Pruning (EAP) and Interleaved Inference Orchestration ($I^2O$). EAP is a lightweight adaptive channel pruning method that incorporates the temporal consistency of the physical environment to update sparsity patterns. $I^2O$ leverages the FLOPs bubbles inherent in VLA inference to schedule the pruning method in parallel, ensuring negligible impact on latency. Evaluated on diverse VLA models and benchmarks, EcoVLA delivers state-of-the-art performance, achieving up to 1.60$\times$ speedup with only a 0.4% drop in success rate, and further reaches 2.18$\times$ speedup with only a 0.5% degradation when combined with token pruning. We further validate the effectiveness of EcoVLA on real-world robots.
研究の動機と目的
- Vision-Language-Action (VLA)モデルの大規模パラメータ数による推論待機時間の低減を動機づける。
- 環境のダイナミクスに適応するトレーニング不要の適応剪定フレームワークを開発する。
- 推論FLOPsバブル内で剪定タスクをスケジュールしてオーバーヘッドを低減する。
- 既存のVLA加速技術や実世界ロボットと互換性を示す。
提案手法
- 環境認識適応剪定(EAP)を導入し、視覚環境特徴と時間的文脈からスパース性の変動を識別する。
- 瞬時特徴と履歴特徴を統合し、重みの大きさと融合活性化を組み合わせた重要度スコアを用いて時間的一貫性を持つスパース性パターンを計算する。
- 介在推論オーケストレーション(I2O)を提案し、FLOPsバブルを利用して剪定計算をVLA推論と並行して実行し、追加遅延を最小化する。
- 密結合実行と疎結合実行を加速する sparseカーネル、メモリコアレス化、融合カーネルなどのハードウェア効率的実装を提供する。
- トレーニング不要な動作を維持し、既存の加速手法(例:FastV、VLA-Cache)とプラグアンドプレイ互換性を保つ。
- LLMブロックレベルでの構造化剪定を、チャネル毎のマスキングとハードウェア効率のためのウェイト行列の整列で定式化する。
実験結果
リサーチクエスチョン
- RQ1 retrainingなしで動的に変化する環境に適応する剪定パターンはVLAモデルでどう適用できるか?
- RQ2推論FLOPs内に剪定計算を隠蔽して、ストリーミングVLA制御のエンドツーエンド待機時間を増やさずに済むか?
- RQ3環境認識適応剪定だけを適用した場合とトークン剪定と組み合わせた場合の実務上の利得(速度向上と精度)は何か?
- RQ4提案手法は異なるVLAアーキテクチャや実世界のロボット設定で普遍性を持つか?
- RQ5アダプティブ剪定の下での密・疎推論を最も効果的に支えるハードウェアレベルの最適化は何か?
主な発見
- EcoVLAはシミュレーションVLAベンチマークで成功率が0.4%低下するだけで最大1.60xのスピードアップを提供。
- トークン剪定と組み合わせた場合、EcoVLAは最大2.18xのスピードアップを達成し、ベースラインに対する劣化は0.5%に留まる。
- このフレームワークはOpenVLA-OFT、pi0.5、CogACTモデルがLIBEROおよびSIMPLERベンチマークでロバスト性を向上させる。
- 7-DoF Kinova Gen3による実世界ロボット展開は実運用環境での実用的な加速を示す。
- I2Oは剪定オーバーヘッドをFLOPsバブル内に隠蔽し、リアルタイム制御に適したエンドツーエンド待機時間を維持する。
- ハードウェア効率的カーネルとメモリ最適化は、denseおよびsparse推論の全体的な待機時間削減に寄与する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。