QUICK REVIEW

[論文レビュー] A Generalist Agent

Scott Reed, Konrad Żołna|arXiv (Cornell University)|May 12, 2022

Multimodal Machine Learning Applications被引用数 63

ひとこと要約

Gato は、1.2B パラメータの単一トランスフォーマを提示します。多様なモダリティ、タスク、 embodiment（実装形態）に跨る一般的なポリシーとして動作し、さまざまな連結トークンデータセットで訓練し、プロンプト条件付けを適用します。

ABSTRACT

Inspired by progress in large-scale language modeling, we apply a similar approach towards building a single generalist agent beyond the realm of text outputs. The agent, which we refer to as Gato, works as a multi-modal, multi-task, multi-embodiment generalist policy. The same network with the same weights can play Atari, caption images, chat, stack blocks with a real robot arm and much more, deciding based on its context whether to output text, joint torques, button presses, or other tokens. In this report we describe the model and the data, and document the current capabilities of Gato.

研究の動機と目的

ドメイン全体で手作りのポリシーやバイアスを減らすために、単一の汎用エージェントの構築を動機づける。
大規模なトランスフォーマが統一データ形式で多様なモダリティとタスクを扱えることを示す。
広範なマルチドメインデータセットでの訓練が広範な能力と新しいタスクへの適応の可能性を可能にすることを示す。
プロンプト、スケーリング、ファインチューニングが制御、ビジョン言語、ロボティクスのタスクにおける性能に与える影響を調査する。

提案手法

マルチモーダルデータをデコーダーのみのトランスフォーマーに適した平坦なトークン列に直列化する。
テキストを SentencePiece でトークン化し、画像パッチを ViT-style パッチとして、離散的なアクションを整数として、連続値は mu-law encoding を用いて 1024 ビンに符号化する。
1.2B パラメータのトランスフォーマを24層で用い、次のトークンを予測し、損失をターゲット出力（テキストとアクション）に対してマスキングする。
訓練および評価時にエピソードやデモンストレーションをシーケンスの先頭に追加してプロンプト条件付けを適用する。
約1.5兆トークンのデータを含む596の制御およびビジョン言語データセットの多様なデータミックスでオフライン訓練する。
固定コンテキストウィンドウを1024トークンに設定して展開し、長期的な制御にはメモリ強化デプロイメントを使用する。

実験結果

リサーチクエスチョン

RQ1単一の汎用モデルは、統一トークンベースのシーケンスモデルを用いて、広範なタスク・モダリティ・ embodiment を学習できるか。
RQ2スケーリング（モデルサイズ、データ、計算）がクロスドメイン性能や新しいタスクへの適応にどのような影響を与えるか。
RQ3プロンプト条件付けとファインチューニングが few-shot や分布外タスク適応にどのような影響を与えるか。
RQ4事前学習で見られなかったロボティクスと認識タスクへの一般主義の転移はどれくらいうまくいくか。
RQ5単一モデルは複数の領域でドメイン固有ベースラインやスペシャリストを凌ぐことがどの程度可能か。

主な発見

Gato は、Simulation の 604 の制御タスクのうち 450 以上でエキスパートスコアを超える。
Gato は 23 At ari ゲームで平均的に人間以上の性能を達成し、11 ゲームでは人間の2倍以上。
BabyAI では、ほとんどすべてのレベルでエキスパートの80％超を獲得し、最も難しいタスク BossLevel は 75％に達する。
Gato は DM Control Suite の 21/30 タスクでエキスパートの50％を超え、18 タスクで80％超、Meta-World では 44/45 タスクで50％超、3 タスクで90％超のスコアを記録。
実機ロボットRGB積み重ねでは、Gato のスキル汎化は平均約 50.2%（実機）で BC-IMP ベースラインと競合的な結果；スキル習得はディストリビューション内での高い性能を示す。
限られたデモンストレーションでのファインチューニングはロボティクス性能を大きく改善し、より大きなモデルはより効果的に適応し、知覚バリエーションタスク（例：青色 on 緑色の積み重ね）を意味のある成功率に導く。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。