[论文解读] RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models
RAPID 引入一个用于运动学驱动的边缘-云分区框架,用于视觉-语言-动作模型,提升兼容性并利用逐步冗余来降低延迟。它在开销5-7%的情况下实现最高 1.73x 的加速。
Vision Language Action (VLA) models are mainstream in embodied intelligence but face high inference costs. Edge-Cloud Collaborative (ECC) inference offers an effective fix by easing edge-device computing pressure to meet real-time needs. However, existing ECC frameworks are suboptimal for VLA models due to two challenges: (1) Mainstream environment-oriented edge-cloud partitioning methods are susceptible to interference from visual noise; (2) Existing edge-cloud partitioning methods overlook the step-wise redundancy unique to embodied tasks, thereby disrupting the physical continuity of motion. To address these issues, we propose a novel ECC inference framework, termed RAPID. Specifically, we developed an implementation tailored to the proposed framework. Experiments demonstrate this achieves a speedup of up to 1.73x with only 5%~7% overhead.
研究动机与目标
- 识别在噪声和跨任务情境下针对 VLA 模型的环境导向 ECC 分区的局限性。
- 开发基于运动学的兼容性量化,以将分区与视觉噪声解耦。
- 利用 VLA 动作中的逐步冗余来引导边云卸载决策。
- 提出双阈值、双运动学的 RAPID 框架,用于自适应分区。
- 通过仿真和现实世界实验演示效率提升和鲁棒性。
提出的方法
- 提出两大核心设计:利用运动学特征检测突变非线性运动变化的兼容性最优分区。
- 引入冗余感知分区,利用运动学特征量化并在关键交互中利用低冗余。
- 将瞬时关节加速度和加速度幅度分数定义为兼容性触发条件。
- 将关节扭矩变化和冗余分数定义为在低冗余阶段触发云端卸载。
- 将触发条件与动态阶段权重融合,生成持续的动作重要性分数,指导卸载决策。
- 实现带边缘抢占、冷却时间和动态边云调度器的异步多速率架构(算法1)。

实验结果
研究问题
- RQ1运动学特征是否能为 VLA 模型中的 ECC 提供稳健、环境无关的分区触发?
- RQ2通过运动学利用逐步冗余对边缘/云端工作负载和延迟有何影响?
- RQ3双阈值动态触发对端到端延迟和边缘内存使用有什么影响?
- RQ4与基于视觉的策略相比,RAPID 在视觉噪声和干扰下是否能保持性能?
- RQ5在真实 manipulators 上的实际开销和可扩展性特征如何?
主要发现
- RAPID 相对于基线实现端到端最高 1.73x 的加速。
- 在真实世界测试中,边缘占用降至 2.4 GB,云端卸载 11.8 GB。
- 在报道的实验中,该框架的开销保持在 5-7% 之内。
- 双阈值分区在加速度触发和扭矩触发下相比消融变体可降低总延迟。
- 运动学特征对视觉噪声具有鲁棒性,并与动作冗余相关,支持环境无关分区。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。