QUICK REVIEW

[论文解读] SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation

Zhuoran Li, Zhiyang Li|arXiv (Cornell University)|Mar 25, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

SOMA 通过一个具备记忆增强、归因驱动的在线/离线系统，对“Vision-Language-Action”策略进行升级，动态干预感知-行动流，实现强鲁棒性于分布外任务且无需微调。

ABSTRACT

Despite the promise of Vision-Language-Action (VLA) models as generalist robotic controllers, their robustness against perceptual noise and environmental variations in out-of-distribution (OOD) tasks remains fundamentally limited by the absence of long-term memory, causal failure attribution, and dynamic intervention capability. To address this, we propose SOMA, a Strategic Orchestration and Memory-Augmented System that upgrades frozen VLA policies for robust in-context adaptation without parameter fine-tuning. Specifically, SOMA operates through an online pipeline of contrastive Dual-Memory Retrieval-Augmented Generation (RAG), an Attribution-Driven Large-Language-Model (LLM) Orchestrator, and extensible Model Context Protocol (MCP) interventions, while an offline Memory Consolidation module continuously distills the execution traces into reliable priors. Experimental evaluations across three backbone models (pi0, pi0.5, and SmolVLA) on LIBERO-PRO and our proposed LIBERO-SOMA benchmarks demonstrate that SOMA achieves an average absolute success rate gain of 56.6%. This includes a significant absolute improvement of 89.1% in long-horizon task chaining. Project page and source code are available at: https://github.com/LZY-1021/SOMA.

研究动机与目标

解决在感知噪声和环境变化下，Vision-Language-Action（VLA）模型在分布外任务中的鲁棒性差距。
利用长期记忆、因果故障归因以及动态工具干预，实现在不进行微调的情况下的上下文自适应。
将在线任务级干预与离线记忆巩固解耦，以持续改进先前经验。

提出的方法

引入三组件在线管线：双记忆检索增强生成（RAG）、归因驱动的大模型编排器，以及可扩展的模型上下文协议（MCP）干预。
使用离线的记忆巩固模块将执行轨迹蒸馏为持续改进的先验。
采用双记忆库来存储成功与失败，实现对比归因与记忆引导的干预。
依赖归因驱动的大模型（如 Qwen3-VL-32B）来诊断故障并合成映射到 MCP 工具的干预链。
通过 MCP 工具在感知优先、因果感知的序列中动态编排感知与语言干预。
执行离线的记忆巩固工作流，在不中断在线推理的情况下更新记忆。

实验结果

研究问题

RQ1在分布外条件下，长期记忆与因果故障归因如何提高 VLA 模型的上下文自适应？
RQ2一个无参数、可即插即用的框架，结合记忆巩固与工具编排，是否可以在不微调的情况下提升冻结的 VLA 策略的鲁棒性？
RQ3双记忆（成功与失败）检索与离线巩固对干预规划的效率与鲁棒性有何影响？

主要发现

SOMA 在 LIBERO-PRO 和 LIBERO-SOMA 基准测试上实现了平均绝对成功率提升 56.6%。
在 LIBERO-SOMA 上，SOMA 实现平均提升 59.3%，在长期任务中最高可达 89.1% 的绝对提升。
在 LIBERO-PRO 上，SOMA 相对于基线骨干模型实现加权平均提升 54.5%。
SOMA 显著提升了长期任务链的表现和对视觉、语言以及布局变换的鲁棒性，适用于多种 VLA 骨干（π0、π0.5、SmolVLA）。
消融研究表明双记忆库（成功与失败）以及 Rich RAG 对更深层次、效率更高的推理与干预链具有必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。