QUICK REVIEW

[論文レビュー] Behavior Transformers: Cloning $k$ modes with one stone

Nur Muhammad Mahi Shafiullah, Zichen Jeff Cui|arXiv (Cornell University)|Jun 22, 2022

Reinforcement Learning in Robotics被引用数 31

ひとこと要約

BeTは、連続的な行動をビンに量子化し、残差オフセットを用いることで、オフラインデータとオンラインロールアウトのためのマルチモーダル挙動クローンを可能にする、マルチモーダルな未ラベルデモンストレーションを模倣するトランスフォーマーベースのアプローチを導入します。

ABSTRACT

While behavior learning has made impressive progress in recent times, it lags behind computer vision and natural language processing due to its inability to leverage large, human-generated datasets. Human behaviors have wide variance, multiple modes, and human demonstrations typically do not come with reward labels. These properties limit the applicability of current methods in Offline RL and Behavioral Cloning to learn from large, pre-collected datasets. In this work, we present Behavior Transformer (BeT), a new technique to model unlabeled demonstration data with multiple modes. BeT retrofits standard transformer architectures with action discretization coupled with a multi-task action correction inspired by offset prediction in object detection. This allows us to leverage the multi-modal modeling ability of modern transformers to predict multi-modal continuous actions. We experimentally evaluate BeT on a variety of robotic manipulation and self-driving behavior datasets. We show that BeT significantly improves over prior state-of-the-art work on solving demonstrated tasks while capturing the major modes present in the pre-collected datasets. Finally, through an extensive ablation study, we analyze the importance of every crucial component in BeT. Videos of behavior generated by BeT are available at https://notmahi.github.io/bet

研究の動機と目的

rewards labelsなしで分布的にマルチモーダルな未ラベルデモンストレーションデータセットからの学習を動機づける。
transformersを用いてマルチモーダルな行動分布を捉えるスケーラブルなアーキテクチャを提案する。
離散ビンから連続的な行動を残差オフセットヘッドで再構成できるようにする。
BeTを多様なロボティクスおよび自動運転データセットで示し、マルチモーダル挙動クローンの改善を示す。
ビニング、オフセット、履歴、トランスフォーマー基盤の寄与を特定するアブレーションを提供する。

提案手法

行動を離散的な行動ビン（中心）と連続的残差（オフセット）に分解する。行動のk-meansクラスタリングを用いる。
トランスフォーマー・デコーダー（minGPT）を用いて、観測の履歴を条件として行動ビンの系列を予測する。
予測ビン分布の多モード性に対処するため、フォーカル損失を用いてビン分布を訓練する。
k個のビンに対応するk個の残差ベクトルを出力する残差オフセットヘッドを追加し、 ground-truthビンの残差のみをペナルティするマルチタスク損失で訓練する。
推論時には、予測分布からビンをサンプリングし、対応する残差を加えて連続的な行動を再構成する。
初期化後にk-meansの中心を固定して、訓練と評価を安定化させる。

実験結果

リサーチクエスチョン

RQ1BeTはマルチモーダルデモデータセットに存在する複数のモードを再現・カバーできるか。
RQ2オンラインロールアウトにおけるBeTの性能は、観測次元と行動次元が異なる環境間でベースラインと比較してどうか。
RQ3離散的な行動ビニング、残差オフセット、履歴的文脈、トランスフォーマーアーキテクチャがBeTの性能に与える影響は何か。
RQ4BeTは長期的なタスクでモダリティを崩さず、マルチモーダリティを維持できるか。

主な発見

BeTはオンラインロールアウト中に複数のマルチモーダルデータセット上で、従来の挙動クローン手法を上回る。
BeTは訓練データに存在する主要なモードを捉え、単一モードへ崩壊するのを回避する。
離散的行動ビニングと残差オフセットヘッドの両方が、特に高次元の行動空間で性能にとって重要である。
履歴的文脈を取り入れることで、環境全体で示された挙動への適合性が向上する。
BeTは計算効率性が高く、いくつかのベースラインよりもロールアウトが著しく速い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。