QUICK REVIEW

[논문 리뷰] RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models

Zihao Zheng, Sicheng Tian|arXiv (Cornell University)|2026. 03. 09.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

RAPID는 비전-언어-행동(VLA) 모델에 대한 연동성 기반의 엣지-클라우드 분할 프레임워크를 도입하여 호환성을 개선하고 단계별 중복성을 활용해 지연을 줄입니다. 최대 1.73x 속도 향상과 5-7% 오버헤드를 달성합니다.

ABSTRACT

Vision Language Action (VLA) models are mainstream in embodied intelligence but face high inference costs. Edge-Cloud Collaborative (ECC) inference offers an effective fix by easing edge-device computing pressure to meet real-time needs. However, existing ECC frameworks are suboptimal for VLA models due to two challenges: (1) Mainstream environment-oriented edge-cloud partitioning methods are susceptible to interference from visual noise; (2) Existing edge-cloud partitioning methods overlook the step-wise redundancy unique to embodied tasks, thereby disrupting the physical continuity of motion. To address these issues, we propose a novel ECC inference framework, termed RAPID. Specifically, we developed an implementation tailored to the proposed framework. Experiments demonstrate this achieves a speedup of up to 1.73x with only 5%~7% overhead.

연구 동기 및 목표

노이즈 및 다양한 작업에서 VLA 모델용 환경 지향 ECC 분할의 한계를 식별한다.
시각적 노이즈로부터 분할을 분리하기 위한 운동학 기반 호환성 측정치를 개발한다.
VLA 동작에서 단계적 중복성을 활용해 에지-클라우드 오프로드 의사를 안내한다.
적응형 분할을 위한 이중 임계값, 이중 운동학 기반의 RAPID 프레임워크를 제안한다.
시뮬레이션 및 실제 실험을 통해 효율 향상과 견고성을 입증한다.

제안 방법

두 가지 핵심 설계를 제안한다: 급격한 비선형 운동 변화를 탐지하기 위해 운동학 특징을 활용한 호환성 최적 분할.
중요한 상호 작용 동안 낮은 중복성을 정량화하고 활용하기 위해 운동학 특징을 사용하는 중복 인지 분할을 도입한다.
호환성 트리거로 순간 관절 가속도 및 가속도 크기 점수를 정의한다.
저중복 단계에서 클라우드 오프로드를 트리거하기 위한 관절 토크 변동과 중복 점수를 정의한다.
오프로드 의사 결정을 안내하는 연속적 행동 중요도 점수를 만들기 위해 동적 위상 가중치로 트리거를 융합한다.
에지 선점, 쿨다운, 동적 엣지-클라우드 디스패처를 갖춘 비동기 다중 속도 아키텍처를 구현한다(Algorithm 1).

Figure 1: Comparison between Vision-Based Strategy(Left) and Our RAPID Framework(Middle).

실험 결과

연구 질문

RQ1운동학 특징이 VLA 모델의 ECC에 대해 환경에 구애받지 않는 강건한 분할 트리거를 제공할 수 있는가?
RQ2운동학을 통한 단계적 중복성 활용이 엣지/클라우드 작업량과 지연에 어떤 영향을 미치는가?
RQ3동적 이중 임계값 트리거가 엔드 투 엔드 지연 및 엣지 메모리 사용에 미치는 영향은?
RQ4비전 기반 전략과 비교했을 때 RAPID가 비주얼 노이즈 및 주의 산만에서도 성능을 유지하는가?
RQ5현실 세계의 조작기에서 실제적 오버헤드와 확장성 특성은 무엇인가?

주요 결과

RAPID는 기준 대비 최대 1.73x 엔드투엔드 속도향상을 달성한다.
현실 세계 테스트에서 엣지 공간은 2.4 GB로 최소화되고, 11.8 GB가 클라우드로 오프로드된다.
프레임워크의 오버헤드는 보고된 실험에서 5-7% 이내로 남는다.
가속 기반 트리거와 토크 기반 트리거를 포함한 이중 임계값 분할은 제거형 변형들보다 전체 지연을 감소시킨다.
운동학 특징은 시각적 노이즈에 강건하고 동작 중복성과 상관관계가 있어 환경에 구애받지 않는 분할을 뒷받침한다.

Figure 2: (a) Vision-based Offloading Strategy in Different Degree of Noise. (b) Kinematic Offloading Strategy Performance.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.