QUICK REVIEW

[論文レビュー] PaLM-E: An Embodied Multimodal Language Model

Danny Driess, Fei Xia|arXiv (Cornell University)|Mar 6, 2023

Multimodal Machine Learning Applications被引用数 349

ひとこと要約

PaLM-E は連続観測（画像、状態推定など）を単一のデコーダー専用大規模言語モデルに統合して、具現化された推論、視覚-言語タスク、従来の言語タスクを実行します。ロボティクスと視覚-言語ドメインの移転を示し、タスク特異的微調整なしで最先端のOK-VQA性能を達成します。

ABSTRACT

Large language models excel at a wide range of complex tasks. However, enabling general inference in the real world, e.g., for robotics problems, raises the challenge of grounding. We propose embodied language models to directly incorporate real-world continuous sensor modalities into language models and thereby establish the link between words and percepts. Input to our embodied language model are multi-modal sentences that interleave visual, continuous state estimation, and textual input encodings. We train these encodings end-to-end, in conjunction with a pre-trained large language model, for multiple embodied tasks including sequential robotic manipulation planning, visual question answering, and captioning. Our evaluations show that PaLM-E, a single large embodied multimodal model, can address a variety of embodied reasoning tasks, from a variety of observation modalities, on multiple embodiments, and further, exhibits positive transfer: the model benefits from diverse joint training across internet-scale language, vision, and visual-language domains. Our largest model, PaLM-E-562B with 562B parameters, in addition to being trained on robotics tasks, is a visual-language generalist with state-of-the-art performance on OK-VQA, and retains generalist language capabilities with increasing scale.

研究の動機と目的

現実世界の連続センサモダリティに言語モデルを基盤付けて、具現化された推論を可能にする。
ロボット計画、視覚質問応答、キャプション生成を扱える単一のマルチモーダルモデルを作成する。
多様な視覚-言語データから具現化タスクおよびロボット実装間での転移を示す。
モデルスケーリングと多タスク学習がデータ効率と汎化性能を向上させることを示す。

提案手法

連続観測（画像、状態推定など）をマルチモーダルトークンとして事前学習済みのデコーダー専用LLMに注入し、マルチモーダル文を形成する。
各モダリティのエンコーダをLLMとエンドツーエンドで訓練し、計画や回答として解釈できるテキストを生成する。
オブジェクト中心表現（OSRT、真のオブジェクトマスク）を用いてオブジェクトを複数の埋め込みにトークン化し、テキスト中でのオブジェクト参照を可能にする。
異なる入力表現（状態ベクトル、ViT のバリアント、OSRT）と訓練レジーム（LLMを凍結するかファインチューニングするか、マルチタスク共同訓練）を評価する。
PaLM-E の出力を制御ループの低レベルポリシーに接続し、PaLM-E を低レベルスキルを連続配置する高レベルのプランナーとして扱う。

実験結果

リサーチクエスチョン

RQ1単一のマルチモーダル言語モデルを、連続センサモダリティを基盤として具現化推論と標準的な視覚-言語タスクの両方を実行できるか。
RQ2マルチタスク・クロスドメインの訓練はデータ効率を改善し、ロボット実装とタスク間の転移を可能にするか。
RQ3異なるモダリティエンコーダ（状態ベクトル、ViT バリアント、OSRT）は、具現化計画とVQAの性能にどのように影響するか。
RQ4LLM の凍結 vs ファインチューニングとオブジェクト中心表現の影響は、汎化とデータ効率にどう現れるか。
RQ5PaLM-E を大規模なパラメータ数へ拡張すると、汎用的能力を維持しつつ具現化計画とゼロショットのマルチモーダル推論を実現できるか。

主な発見

PaLM-E は具現化計画、VQA、キャプション生成の全般で高い性能を達成し、ゼロショットのマルチモーダル連鎖的推論を可能にする。
ロボティクスと一般的な視覚-言語データの混合で共同学習を行うと、同領域データだけの場合より性能が向上し、具現化データが限られていても効果を発揮する。
OSRT ベースの3D認識的オブジェクト表現は、試験エンコーダの中で最も良い計画性能を提供した。
562B パラメータの PaLM-E はタスク特異的微調整なしで最先端のOK-VQA結果を達成し、複数のタスクと実装間で転移を示す。
LLM を凍結しエンコーダだけを訓練する設定は一部で実用的であり、モダリティ基盤のエンコーダを通じたソフト・プロンプティング効果を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。