Skip to main content
QUICK REVIEW

[論文レビュー] RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models

Zihao Zheng, Sicheng Tian|arXiv (Cornell University)|Mar 9, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

RAPIDはVision-Language-Actionモデル向けの運動学駆動エッジ-クラウド分割フレームワークを導入し、互換性を改善し、段階的冗長性を活用して遅延を削減します。最大1.73倍の加速と5-7%のオーバーヘッドを達成します。

ABSTRACT

Vision Language Action (VLA) models are mainstream in embodied intelligence but face high inference costs. Edge-Cloud Collaborative (ECC) inference offers an effective fix by easing edge-device computing pressure to meet real-time needs. However, existing ECC frameworks are suboptimal for VLA models due to two challenges: (1) Mainstream environment-oriented edge-cloud partitioning methods are susceptible to interference from visual noise; (2) Existing edge-cloud partitioning methods overlook the step-wise redundancy unique to embodied tasks, thereby disrupting the physical continuity of motion. To address these issues, we propose a novel ECC inference framework, termed RAPID. Specifically, we developed an implementation tailored to the proposed framework. Experiments demonstrate this achieves a speedup of up to 1.73x with only 5%~7% overhead.

研究の動機と目的

  • ノイズ下およびタスク間でのVLAモデル向け環境指向ECC分割の制約を特定する。
  • 視覚的ノイズから分割をデカップリングする運動学ベースの互換性指標を開発する。
  • VLAアクションの段階的冗長性を活用してエッジ-クラウドオフロード意思決定を導く。
  • 動的な二つの閾値・二つの運動学を用いるRAPIDフレームワークを提案し適応分割を実現する。
  • シミュレーションと実機実験を通じて効率向上と頑健性を示す。

提案手法

  • 二つのコア設計を提案する:運動学特徴を用いて急激な非線形運動変化を検出する互換性最適分割。
  • 運動学特徴を用いて低冗長性を定量化・活用する冗長性認識分割。
  • 互換性トリガーとしてインスタント関節加速度と加速度大きさスコアを定義。
  • 低冗長性フェーズでクラウドオフロードを促す関節トルク変動と冗長性スコアを定義。
  • オフロード判断を導く連続的なアクション重要度スコアを生成するトリガーをダイナミック位相ウェイトと組み合わせて統合。
  • エッジ予備執行、クールダウン、動的なエッジ-クラウドディスパッチャを伴う非同期マルチレートアーキテクチャを実装(アルゴリズム1)。
Figure 1: Comparison between Vision-Based Strategy(Left) and Our RAPID Framework(Middle).
Figure 1: Comparison between Vision-Based Strategy(Left) and Our RAPID Framework(Middle).

実験結果

リサーチクエスチョン

  • RQ1運動学的特徴はVLAモデルのECCに対して環境依存しない頑健な分割トリガーを提供し得るか。
  • RQ2運動学を介した段階的冗長性活用がエッジ/クラウドのワークロードと遅延にどう影響するか。
  • RQ3動的二閾値トリガーがエンドツーエンドの遅延とエッジメモリ使用量に与える影響は。
  • RQ4RAPIDは視覚的ノイズや気を散らす要素下で視覚ベース戦略と比較して性能を維持するか。
  • RQ5実世界のマニピュレータで実務的なオーバーヘッドとスケーラビリティ特性はどうか。

主な発見

  • RAPIDはベースラインに対して最大1.73倍のエンドツーエンドのスピードアップを達成。
  • 実世界のテストでエッジのフットプリントを2.4GB、クラウドへ11.8GBをオフロード。
  • フレームワークのオーバーヘッドは報告された実験で5-7%の範囲内に留まる。
  • 加速度ベースとトルクベースの二閾値分割は、アブレーション系よりも総遅延を削減。
  • 運動学的特徴は視覚ノイズに対して頑健で、アクションの冗長性と相関し、環境依存の分割を支持する。
Figure 2: (a) Vision-based Offloading Strategy in Different Degree of Noise. (b) Kinematic Offloading Strategy Performance.
Figure 2: (a) Vision-based Offloading Strategy in Different Degree of Noise. (b) Kinematic Offloading Strategy Performance.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。