[論文レビュー] SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation
SOMA はメモリを活用した、寄与度指向のオンライン/オフラインシステムで凍結された Vision-Language-Action ポリシーを強化し、知覚-行動のストリームに動的に介入して、ファインチューニングなしでアウト・オブ・ディ distribution に対する堅牢性を高めます。
Despite the promise of Vision-Language-Action (VLA) models as generalist robotic controllers, their robustness against perceptual noise and environmental variations in out-of-distribution (OOD) tasks remains fundamentally limited by the absence of long-term memory, causal failure attribution, and dynamic intervention capability. To address this, we propose SOMA, a Strategic Orchestration and Memory-Augmented System that upgrades frozen VLA policies for robust in-context adaptation without parameter fine-tuning. Specifically, SOMA operates through an online pipeline of contrastive Dual-Memory Retrieval-Augmented Generation (RAG), an Attribution-Driven Large-Language-Model (LLM) Orchestrator, and extensible Model Context Protocol (MCP) interventions, while an offline Memory Consolidation module continuously distills the execution traces into reliable priors. Experimental evaluations across three backbone models (pi0, pi0.5, and SmolVLA) on LIBERO-PRO and our proposed LIBERO-SOMA benchmarks demonstrate that SOMA achieves an average absolute success rate gain of 56.6%. This includes a significant absolute improvement of 89.1% in long-horizon task chaining. Project page and source code are available at: https://github.com/LZY-1021/SOMA.
研究の動機と目的
- 視覚・言語・行動 (VLA) モデルがアウト・オブ・ディストリビューション環境下で知覚ノイズと環境変動に対して抱える堅牢性ギャップに対処する。
- 長期記憶、因果的失敗 attribution、動的ツール介入を活用してファインチューニングなしの文脈内適応を可能にする。
- オンラインのタスクレベル介入をオフラインの記憶統合と切り離して、過去の経験を継続的に洗練する。
提案手法
- 三要素のオンラインパイプラインを導入する:Dual-Memory Retrieval-Augmented Generation (RAG)、Attributed-Driven LLM Orchestrator、拡張可能な Model Context Protocol (MCP) 介入。
- オフラインの Memory Consolidation モジュールを使用して実行トレースをプリオリに蒸留し、継続的改善のための記憶を作る。
- 成功と失敗の両方を格納する Dual-Memory Bank を使用して対照的な attribution と memory-guided 介入を可能にする。
- 失敗を診断し MCP ツールに対応する介入チェーンを統合する Attribution-Driven LLM(例:Qwen3-VL-32B)を用いる。
- 感覚優先・因果性を意識したシーケンスで、MCP ツールを通じて知覚的および言語的介入を動的に統括する。
- オンライン推論を中断せずに記憶を更新するオフライン Memory Consolidation ワークフローを実行する。
実験結果
リサーチクエスチョン
- RQ1OOD 条件下での長期記憶と因果的失敗 attribution は文脈内適応をどう向上させるのか。
- RQ2メモリ統合とツールオーケストレーションを備えたパラメータフリーなプラグアンドプレイのフレームワークは、ファインチューニングなしで凍結された VLA ポリシーを頑健化できるのか。
- RQ3デュアルメモリ(成功と失敗)の取得とオフライン統合は、介入計画の効率性と頑健性にどのような影響を与えるのか。
主な発見
- SOMA は LIBERO-PRO および LIBERO-SOMA ベンチマーク全体で平均絶対成功率の利益を 56.6% 向上させる。
- LIBERO-SOMA で SOMA は平均 59.3% の利益をもたらし、長期的タスクで最大 89.1% の絶対改善を達成。
- LIBERO-PRO では SOMA はベースライン backbone に対して加重平均で 54.5% の利益を示す。
- SOMA は長期的なタスク連鎖と、複数の VLA バックボーン(π0、π0.5、SmolVLA)に対する視覚的・言語的・レイアウトのシフトに対する頑健性を大幅に改善する。
- アブレーション研究は、デュアルメモリ Bank(成功と失敗)と Rich RAG の必要性、より深く効率的な推論と介入チェーンの価値を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。