Skip to main content
QUICK REVIEW

[논문 리뷰] RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models

Zihao Zheng, Sicheng Tian|arXiv (Cornell University)|2026. 03. 09.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

RAPID는 비전-언어-행동(VLA) 모델에 대한 연동성 기반의 엣지-클라우드 분할 프레임워크를 도입하여 호환성을 개선하고 단계별 중복성을 활용해 지연을 줄입니다. 최대 1.73x 속도 향상과 5-7% 오버헤드를 달성합니다.

ABSTRACT

Vision Language Action (VLA) models are mainstream in embodied intelligence but face high inference costs. Edge-Cloud Collaborative (ECC) inference offers an effective fix by easing edge-device computing pressure to meet real-time needs. However, existing ECC frameworks are suboptimal for VLA models due to two challenges: (1) Mainstream environment-oriented edge-cloud partitioning methods are susceptible to interference from visual noise; (2) Existing edge-cloud partitioning methods overlook the step-wise redundancy unique to embodied tasks, thereby disrupting the physical continuity of motion. To address these issues, we propose a novel ECC inference framework, termed RAPID. Specifically, we developed an implementation tailored to the proposed framework. Experiments demonstrate this achieves a speedup of up to 1.73x with only 5%~7% overhead.

연구 동기 및 목표

  • 노이즈 및 다양한 작업에서 VLA 모델용 환경 지향 ECC 분할의 한계를 식별한다.
  • 시각적 노이즈로부터 분할을 분리하기 위한 운동학 기반 호환성 측정치를 개발한다.
  • VLA 동작에서 단계적 중복성을 활용해 에지-클라우드 오프로드 의사를 안내한다.
  • 적응형 분할을 위한 이중 임계값, 이중 운동학 기반의 RAPID 프레임워크를 제안한다.
  • 시뮬레이션 및 실제 실험을 통해 효율 향상과 견고성을 입증한다.

제안 방법

  • 두 가지 핵심 설계를 제안한다: 급격한 비선형 운동 변화를 탐지하기 위해 운동학 특징을 활용한 호환성 최적 분할.
  • 중요한 상호 작용 동안 낮은 중복성을 정량화하고 활용하기 위해 운동학 특징을 사용하는 중복 인지 분할을 도입한다.
  • 호환성 트리거로 순간 관절 가속도 및 가속도 크기 점수를 정의한다.
  • 저중복 단계에서 클라우드 오프로드를 트리거하기 위한 관절 토크 변동과 중복 점수를 정의한다.
  • 오프로드 의사 결정을 안내하는 연속적 행동 중요도 점수를 만들기 위해 동적 위상 가중치로 트리거를 융합한다.
  • 에지 선점, 쿨다운, 동적 엣지-클라우드 디스패처를 갖춘 비동기 다중 속도 아키텍처를 구현한다(Algorithm 1).
Figure 1: Comparison between Vision-Based Strategy(Left) and Our RAPID Framework(Middle).
Figure 1: Comparison between Vision-Based Strategy(Left) and Our RAPID Framework(Middle).

실험 결과

연구 질문

  • RQ1운동학 특징이 VLA 모델의 ECC에 대해 환경에 구애받지 않는 강건한 분할 트리거를 제공할 수 있는가?
  • RQ2운동학을 통한 단계적 중복성 활용이 엣지/클라우드 작업량과 지연에 어떤 영향을 미치는가?
  • RQ3동적 이중 임계값 트리거가 엔드 투 엔드 지연 및 엣지 메모리 사용에 미치는 영향은?
  • RQ4비전 기반 전략과 비교했을 때 RAPID가 비주얼 노이즈 및 주의 산만에서도 성능을 유지하는가?
  • RQ5현실 세계의 조작기에서 실제적 오버헤드와 확장성 특성은 무엇인가?

주요 결과

  • RAPID는 기준 대비 최대 1.73x 엔드투엔드 속도향상을 달성한다.
  • 현실 세계 테스트에서 엣지 공간은 2.4 GB로 최소화되고, 11.8 GB가 클라우드로 오프로드된다.
  • 프레임워크의 오버헤드는 보고된 실험에서 5-7% 이내로 남는다.
  • 가속 기반 트리거와 토크 기반 트리거를 포함한 이중 임계값 분할은 제거형 변형들보다 전체 지연을 감소시킨다.
  • 운동학 특징은 시각적 노이즈에 강건하고 동작 중복성과 상관관계가 있어 환경에 구애받지 않는 분할을 뒷받침한다.
Figure 2: (a) Vision-based Offloading Strategy in Different Degree of Noise. (b) Kinematic Offloading Strategy Performance.
Figure 2: (a) Vision-based Offloading Strategy in Different Degree of Noise. (b) Kinematic Offloading Strategy Performance.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.