QUICK REVIEW

[論文レビュー] Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

Yevgen Chebotar, Quan Vuong|arXiv (Cornell University)|Sep 18, 2023

Reinforcement Learning in Robotics被引用数 16

ひとこと要約

Q-Transformer は per-dimension discretization および autoregressive Transformer-based Q-learning を使用して、大規模かつ現実世界のロボット多タスクデータに対するオフライン RL をスケールさせ、従来のオフライン RL 手法と模倣学習を上回る。

ABSTRACT

In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://qtransformer.github.io

研究の動機と目的

大規模なオフラインロボットデータセットから、人的デモと自律取得データを混在させたデータから、スケーラブルで高容量のポリシー学習を動機づけ・実現する。
各ディメンションごとに離散化された離散アクション・トークンを扱える Transformer ベースの Q 関数表現を開発する。
オフラインデータに適した保守的な正則化子を導入し、分布シフトと過大評価を低減する。
モンテカルロリターンと n ステップ TD 更新で学習効率を高め、現実タスクでの訓練を加速する。

提案手法

各アクション次元を個別に離散化し、Transformer を用いて Q 学習を自己回帰的シーケンスモデリングとして扱い、Q 値をトークンとして表現する。
時間ステップ内の各アクションビンの Q 値を計算するために次元ごとのベルマン更新を適用し、アクション次元を時間ステップとして扱う。
分布外アクションを最小累積報酬（彼らの設定では 0）へ正則化する、特別に設計された保守的 Q 学習目的を導入する。
混合品質データ上で訓練を加速するため、TD 学習をモンテカルロリターン到達点および n-ステップリターンで補強する。
大規模な Transformer モデルでの学習効率を向上させるため、MC リターンと TD バックアップを組み合わせたハイブリッド更新を用いる。

実験結果

リサーチクエスチョン

RQ1Q-Transformer は、人間のデモとサブ最適なオフラインデータの混合から、効果的なポリシーを学習できるのか。
RQ2Q-Transformer は、大規模な現実世界ロボットタスクにおいて、既存のオフライン RL および模倣学習法とどのように比較されるか。
RQ3設計選択（保守的正則化、MC/ n-ステップリターン、次元ごとの離散化）が性能と安定性にどのように影響するか。
RQ4Q-Transformer は非常に大規模なオフラインデータセットおよびマルチタスクの現実ロボティクス問題にスケール可能か。

主な発見

Task category	# of tasks	Q-Transformer (Q-T)	Decision Transformer (DT)	Implicit Q-learning (IQL)	RT-1 (Imitation)
drawer pick and place	18	64%	49%	11%	17%
open and close drawer	7	33%	11%	11%	0%
move object near target	47	71%	40%	60%	58%
Average/All Tasks	72	56%	33%	27%	25%

Q-Transformer は、現実世界の言語条件付きロボット操作タスクにおいて、従来手法より高い平均成功率を達成（平均 56% 対 33% DT、27% IQL、25% RT-1）。
72 の現実世界タスクで、Q-Transformer は引き出し操作や近傜所配置を含むタスクカテゴリでベースラインを上回った。
アブレーションにより、保守性とモンテカルロリターンが性能の要であり、これらを除くと結果が劣化または崩壊することが示された。
スケーリング実験では、データセットが大幅に拡大しても（約 300k 試行）模倣学習および Decision Transformer を上回り続けた。
次元ごとの離散化と自己回帰 Q 学習は、オフライン設定でも Transformer を用いた TD 学習を効果的に実現し、デモと自律データを混在させた場合にも有効であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。