QUICK REVIEW

[論文レビュー] On the Strengths and Weaknesses of Data for Open-set Embodied Assistance

Pradyumna Tambwekar, Andrew Silva|arXiv (Cornell University)|Mar 5, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

この論文は、合成のOvercooked軌跡を用いて多模態の指示チューニング済み具象モデルを訓練し、オープンセットの修正支援を可能にする。未見の欠陥や新規タスクへの一般化を示し、多様な支援データが性能に与える影響を分析する。GPT-4oをベースラインと比較すると、モデルはより強い一般化を示し、具象支援のデータセット設計に関する洞察を提供する。

ABSTRACT

Embodied foundation models are increasingly performant in real-world domains such as robotics or autonomous driving. These models are often deployed in interactive or assistive settings, where it is important that these assistive models generalize to new users and new tasks. Diverse interactive data generation offers a promising avenue for providing data-efficient generalization capabilities for interactive embodied foundation models. In this paper, we investigate the generalization capabilities of a multimodal foundation model fine-tuned on diverse interactive assistance data in a synthetic domain. We explore generalization along two axes: a) assistance with unseen categories of user behavior and b) providing guidance in new configurations not encountered during training. We study a broad capability called extbf{Open-Set Corrective Assistance}, in which the model needs to inspect lengthy user behavior and provide assistance through either corrective actions or language-based feedback. This task remains unsolved in prior work, which typically assumes closed corrective categories or relies on external planners, making it a challenging testbed for evaluating the limits of assistive data. To support this task, we generate synthetic assistive datasets in Overcooked and fine-tune a LLaMA-based model to evaluate generalization to novel tasks and user behaviors. Our approach provides key insights into the nature of assistive datasets required to enable open-set assistive intelligence. In particular, we show that performant models benefit from datasets that cover different aspects of assistance, including multimodal grounding, defect inference, and exposure to diverse scenarios.

研究の動機と目的

predefined set of corrections. が定義されていない状況でのオープンセット修正支援を動機づけ、可能にする。
合成のOvercookedデータを用いて欠陥タイプおよびタスク構成に沿った一般化を調査する。
多様でマルチモーダルな支援データがグラウンディング、推論、および行為生成に及ぼす影響を評価する。

提案手法

ViT画像エンコーダを備えたLLaMA-3ベースをファインチューニングして、軌跡データから言語コーチングまたは修正行為のいずれかを出力するマルチモーダルモデルを作成する。
認知計画や視空間障害をカバーする多様な欠陥ラッパーを用いて、Overcookedの長期的なユーザ軌跡を合成生成する。
グラウンディングデータセット（Image-QA、Trajectory-QA、Video-QA）およびタスク別データセット（Coaching、Corrections、Defect Delineation）を作成してオープンセット支援を訓練する。
欠陥のない軌跡の次の行動を予測して生成した真の修正と、多様なペルソナを持つGPT-4oで生成した合成コーチングスニペットをグラウンディングとして使用する。
新規欠陥ごとに10例の few-shot ファインチューニングを用いて評価し、GPT-4oベースラインおよび保持-out欠陥・新規レシピ全体で評価する。
マルチタスク訓練とグラウンディングデータが一般化に与える影響を理解するためのアブレーションを検討する。

実験結果

リサーチクエスチョン

RQ1合成支援データで訓練した体験的基盤モデルは、未知の欠陥ユーザ挙動（オープンセット欠陥）および新規タスク構成（レシピ）に一般化できるか？
RQ2オープンセット修正支援を最も促進するデータセット設計特性は何か（マルチモーダルグラウンディング、推論経路、タスク分解）？
RQ3モデル規模（1B対8Bパラメータ）は、オープンセットシナリオにおけるゼロショットおよびfew-shot一般化にどのように影響するか？
RQ4複数の支援タスクとグラウンディングデータを共同訓練することで、未知の欠陥や新しいタスクでの性能は改善されるか？

主な発見

提案モデルは、多様な合成支援データで訓練され、保持-out欠陥におけるゼロショットおよびfew-shot設定のコーチングおよび修正タスクの両方でGPT-4oベースラインを上回る。
保持-out欠陥全体で、1Bと8B変種はそれぞれコーチングスコアが76.60と77.80、修正スコアが55.70と54.60で、ベースライン（GPT-4o: コーチング21.00、修正20.40）を上回る。
推論経路は一部設定でコーチングを向上させる一方でモード崩壊を引き起こす可能性がある。推論を伴うゼロショットは混在した利得を生み、非推論入力と比較してコーチング性能が低下する場合がある。
新規レシピへのタスク一般化は、より大きなモデルで改善され、未知タスクの組み合わせ性にはより強いマルチモーダルグラウンディングが必要であることを示唆する。
コーチング、修正、欠陥描出の共同訓練は、単一タスク訓練と比べて下流の支援性能を一般的に向上させ、グラウンディングデータは新規構成への一般化を助ける。
グラウンディングデータセットとの共訓練は視覚的な組成性を改善し、新規タスク構成への一般化を促進する（DTはグラウンディングデータセットの中で最も効果的）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。