[논문 리뷰] SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation
SOMA 는 기억 보강 및 귀인 기반 온라인/오프라인 시스템으로 얼려진 비전-언어-행동 정책을 업그레이드하여 지각-행동 흐름에 동적으로 개입하고, 미세 조정 없이도 강력한 분포 외(out-of-distribution) 견고성을 달성합니다.
Despite the promise of Vision-Language-Action (VLA) models as generalist robotic controllers, their robustness against perceptual noise and environmental variations in out-of-distribution (OOD) tasks remains fundamentally limited by the absence of long-term memory, causal failure attribution, and dynamic intervention capability. To address this, we propose SOMA, a Strategic Orchestration and Memory-Augmented System that upgrades frozen VLA policies for robust in-context adaptation without parameter fine-tuning. Specifically, SOMA operates through an online pipeline of contrastive Dual-Memory Retrieval-Augmented Generation (RAG), an Attribution-Driven Large-Language-Model (LLM) Orchestrator, and extensible Model Context Protocol (MCP) interventions, while an offline Memory Consolidation module continuously distills the execution traces into reliable priors. Experimental evaluations across three backbone models (pi0, pi0.5, and SmolVLA) on LIBERO-PRO and our proposed LIBERO-SOMA benchmarks demonstrate that SOMA achieves an average absolute success rate gain of 56.6%. This includes a significant absolute improvement of 89.1% in long-horizon task chaining. Project page and source code are available at: https://github.com/LZY-1021/SOMA.
연구 동기 및 목표
- 지각적 노이즈와 환경 변동성 하에서 분포 외 작업에서 비전-언어-행동(VLA) 모델의 강건성 차이를 해소한다.
- 장기 기억, 인과적 실패 귀속, 동적 도구 기반 개입을 활용하여 미세 조정 없이 맥락 내 적응을 가능하게 한다.
- 이전 경험을 지속적으로 다듬기 위해 온라인 작업 수준 개입과 오프라인 기억 통합을 분리한다.
제안 방법
- 세 가지 구성요소로 이루어진 온라인 파이프라인 도입: Dual-Memory Retrieval-Augmented Generation (RAG), Attribution-Driven LLM Orchestrator, 그리고 확장 가능한 Model Context Protocol (MCP) 개입.
- 지속적 개선을 위한 사전으로 실행 흔적을 추출하기 위해 오프라인 기억 통합 모듈을 활용한다.
- 성공과 실패를 모두 저장하는 이중 기억 뱅크를 활용하여 대비적 귀속과 기억 기반 개입을 가능하게 한다.
- 실패를 진단하고 MCP 도구에 매핑된 개입 사슬을 합성하기 위해 귀인 주도 LLM(예: Qwen3-VL-32B)에 의존한다.
- 지각-우선 감각 기반, 인과 관계 의식적 시퀀스에서 MCP 도구를 통해 지각 및 언어 개입을 동적으로 오케스트레이션한다.
- 온라인 추론을 중단하지 않고 기억을 업데이트하는 오프라인 Memory Consolidation 워크플로우를 실행한다.
실험 결과
연구 질문
- RQ1장기 기억과 인과적 실패 귀속이 OOD 조건에서 VLA 모델의 맥락 내 적응을 어떻게 개선할 수 있는가?
- RQ2매개변수 없이 설치/실행 가능한 프레임워크가 기억 통합과 도구 오케스트레이션으로 미세 조정 없이 고정된 VLA 정책을 견고하게 만들 수 있는가?
- RQ3성공(+)과 실패(-) 이중 기억 검색 및 오프라인 통합이 개입 계획의 효율성과 견고성에 어떤 영향을 미치는가?
주요 결과
- SOMA 는 LIBERO-PRO와 LIBERO-SOMA 벤치마크에서 평균 절대 성공률 증가율 56.6%를 달성한다.
- LIBERO-SOMA에서 SOMA는 평균 증가율 59.3%를, 장기 과제에서 최대 89.1%의 절대 개선을 달성한다.
- LIBERO-PRO에서 SOMA는 기초 백본 대비 가중 평균 54.5%의 이익을 달성한다.
- SOMA 는 여러 VLA 백본(π0, π0.5, SmolVLA)에서 긴 시간 과제 연결성 및 시각적, 언어적, 배열 변화에 대한 견고성을 크게 향상시킨다.
- 삭제 연구는 이중 기억 뱅크(성공 및 실패)의 필요성과 더 깊고 효율적인 추론 및 개입 사슬을 위한 Rich RAG의 가치를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.